arXiv ID:
2606.04773
NextMotionQA:使用视觉-语言模型基准测试与评判人体运动理解 / NextMotionQA: Benchmarking and Judging Human Motion Understanding with Vision-Language Models
1️⃣ 一句话总结
本文提出了 NextMotionQA 基准测试,通过多项选择题、视频描述和细粒度纠错三种任务,系统评估视觉-语言模型对人体运动的理解能力,并揭示了模型在简单任务上表现尚可、但在精细部件级别判断上严重失效的局限。