arXiv ID:
2602.21035
arXiv 提交日期: 2026-02-24
不止于所见:无需微调,让CLIP理解带否定的视觉描述 / Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning
1️⃣ 一句话总结
这篇论文提出了一个名为CLIPGlasses的即插即用框架,它通过一个解耦否定语义的‘镜片’模块和一个预测排斥强度的‘镜框’模块,巧妙地提升了CLIP模型对图像中‘没有什么’(如‘没有狗’)这类否定描述的理解能力,无需重新训练模型就能在跨领域任务中表现更优、更稳健。