🤖 系统
11-30 17:26
📄 论文总结
Video-MTR:面向长视频理解的强化多轮推理框架 / Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding
1️⃣ 一句话总结
本文提出了一种强化多轮推理框架Video-MTR,通过迭代选择关键视频片段并结合问题理解,实现了对长视频内容更精准的分析,无需依赖外部视觉语言模型即可端到端训练,在多个基准测试中取得了更高的准确性和效率。