arXiv ID:
2508.20478
arXiv 提交日期: 2025-08-28
Video-MTR:面向长视频理解的强化多轮推理框架 / Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding
1️⃣ 一句话总结
本文提出了一种强化多轮推理框架Video-MTR,通过迭代选择关键视频片段并结合问题理解,实现了对长视频内容更精准的分析,无需依赖外部视觉语言模型即可端到端训练,在多个基准测试中取得了更高的准确性和效率。