arXiv ID:
2604.27674
arXiv 提交日期: 2026-04-30
单个文本枢纽点就能攻破CLIP:通过枢纽性识别跨模态编码器的脆弱性 / One Single Hub Text Breaks CLIP: Identifying Vulnerabilities in Cross-Modal Encoders via Hubness
1️⃣ 一句话总结
这篇论文发现,在文本和图像的跨模态编码器中存在一种“枢纽”问题——某个文本可能意外地与大量不相关的图像高度相似,并据此提出了一种方法,能在常用模型(如CLIP)中仅用一个特定文本就能让它在图像描述评估和检索任务上表现异常,从而揭示了这类模型的潜在安全漏洞。