arXiv ID:
2605.19559
arXiv 提交日期: 2026-05-19
EgoCoT-Bench:面向多模态大语言模型的、基于事实且可验证的操作中心链式推理基准 / EgoCoT-Bench: Benchmarking Grounded and Verifiable Operation-Centric Chain of Thought Reasoning for MLLMs
1️⃣ 一句话总结
针对当前多模态模型在处理第一人称视频时缺乏细粒度操作推理和可验证推理过程的问题,本文提出了一个新基准EgoCoT-Bench,它通过时空场景图自动生成高质量的问答对,并由人工精修,能够系统评估模型在感知、回顾、预测和高层推理上的表现,实验发现很多模型虽然答案正确,但解释中引用的证据与答案矛盾。