arXiv ID:
2604.11539
arXiv 提交日期: 2026-04-13
CLAY:视觉-语言嵌入空间中的条件化视觉相似度调制 / CLAY: Conditional Visual Similarity Modulation in Vision-Language Embedding Space
1️⃣ 一句话总结
这篇论文提出了一个名为CLAY的新方法,它无需额外训练,就能利用预训练的视觉-语言模型,让图像检索系统根据用户用文字描述的不同兴趣点(例如“颜色”或“形状”)来灵活、高效地判断图片间的相似度。