arXiv ID:
2603.24329
arXiv 提交日期: 2026-03-25
GameplayQA:一个用于评估3D虚拟智能体在决策密集、第一人称视角同步多视频理解能力的基准框架 / GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents
1️⃣ 一句话总结
这篇论文提出了一个名为GameplayQA的新基准测试框架,通过密集标注多人3D游戏视频并设计诊断性问题,来评估多模态大模型在复杂动态环境中(如理解快速状态变化、区分不同智能体行为并进行推理)的感知与推理能力,发现当前先进模型与人类表现仍有巨大差距。