arXiv ID:
2602.04802
arXiv 提交日期: 2026-02-04
VISTA-Bench:视觉语言模型真的能像理解纯文本一样好地理解图像中的文本吗? / VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?
1️⃣ 一句话总结
这篇论文提出了一个名为VISTA-Bench的新基准测试,发现当前主流视觉语言模型在处理图像中的文本时,性能明显低于处理语义相同的纯文本,揭示了模型在跨模态统一理解上存在显著缺陷。