arXiv ID:
2606.26041
arXiv 提交日期: 2026-06-24
OCR推理的鲁棒性有多强?——在视觉扰动下评估视觉语言模型的OCR推理鲁棒性 / How Robust is OCR-Reasoning? Evaluating OCR-Reasoning Robustness of Vision-Language Models under Visual Perturbations
1️⃣ 一句话总结
本文构建了一个名为OCR-Robust的基准测试集,通过引入多种视觉扰动来评估现有视觉语言模型在文本识别和推理任务上的鲁棒性,发现模型在表格和图表的处理上比普通文档更脆弱,且高准确率并不代表更强的抗干扰能力。