arXiv ID:
2604.25231
arXiv 提交日期: 2026-04-28
DRAGON:一个用于评估图表中基于证据的视觉推理的基准测试 / DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams
1️⃣ 一句话总结
本文提出了一个名为DRAGON的基准测试,专门用来评估AI模型在理解图表(如图表、地图、电路图等)时,是否真的能找出并标注出那些支持其答案的关键视觉区域,而不仅仅是猜对答案,从而让图表推理过程更可靠、更透明。