arXiv ID:
2604.17354
arXiv 提交日期: 2026-04-19
不止于所见:通过语义锚定测量视觉语言模型中的符号间隙 / More Than Meets the Eye: Measuring the Semiotic Gap in Vision-Language Models via Semantic Anchorage
1️⃣ 一句话总结
本文发现,视觉语言模型虽然在生成逼真图像上表现优异,但过度追求视觉真实感反而会干扰其对抽象语义(如习语)的理解,为此提出了一个基于图符化对比图像的评测基准和量化指标,揭示了模型普遍存在的“字面意义偏好”现象。