arXiv ID:
2512.10359
arXiv 提交日期: 2025-12-11
STAR:一种用于视频问答的时空推理框架 / Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task
1️⃣ 一句话总结
本文提出了一种名为STAR的免训练、用户友好的智能体推理框架,通过为大型多模态模型配备一个全面的视频工具包,并采用时空工具交替调用的策略,来渐进式定位视频中的关键三维区域,从而显著提升了复杂视频问答任务的准确性和效率。