🤖 系统
11-30 17:55
📄 论文总结
视频推理:通过迷宫求解任务首次评估视频模型的推理能力 / Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks
1️⃣ 一句话总结
这项研究首次系统评估了视频模型通过生成视频进行空间推理的能力,发现经过微调的模型在迷宫求解任务中表现优于主流视觉语言模型,并能通过多样化采样提升推理可靠性。