arXiv ID:
2512.19526
arXiv 提交日期: 2025-12-22
QuantiPhy:评估视觉语言模型物理推理能力的定量基准 / QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models
1️⃣ 一句话总结
这篇论文提出了首个名为QuantiPhy的定量基准测试,用于评估视觉语言模型从视频中精确推理物体运动数值(如速度、加速度)的能力,发现当前顶尖模型更依赖预训练知识而非真实视觉输入,其数值准确性远低于表面上的合理性。