← 返回列表

🤖 系统

📄 Abstract - Video-MTR: Multi-Turn Reinforcement Reasoning for Long Video Understanding

⏳ 正在获取摘要...

📄 论文总结

用于长视频理解的多轮强化推理框架

Video-MTR: Multi-Turn Reinforcement Reasoning for Long Video Understanding

1️⃣ 一句话总结

Video-MTR是一个端到端训练的多轮强化推理框架，通过门控双层次奖励机制迭代选择关键视频片段，有效解决了长视频理解中的长程时间依赖和多重事件挑战。

2️⃣ 论文创新点

1. 多轮推理框架

创新点是什么：将视频问答任务建模为强化学习问题，采用多轮交互式推理而非一次性处理所有帧
与已有方法的区别/改进：相比传统单轮、均匀采样的静态推理方法，能更精细地分析视频内容
为什么有意义：解决了长视频理解中关键信息可能被遗漏的问题，更符合人类处理复杂视觉信息的认知过程

2. 门控双层次奖励系统

创新点是什么：结合基于答案正确性的轨迹级奖励和强调帧-查询相关性的轮次级奖励
与已有方法的区别/改进：为中间视频片段选择过程提供更好的指导，超越了仅基于答案准确性的奖励系统
为什么有意义：优化视频片段选择和问题理解，无需外部VLMs即可实现端到端训练

3. 目标门控奖励塑形

创新点是什么：基于最终答案正确性的条件性奖励授予机制
与已有方法的区别/改进：防止奖励黑客行为，确保中间操作为最终目标服务
为什么有意义：促进了连贯的、以目标为导向的多轮推理，确保奖励信号与真实任务性能的一致性

3️⃣ 主要结果与价值

实验结果亮点

在VideoMME、MLVU和EgoSchema等多个长视频基准测试中取得最佳或次佳性能
在模型参数和输入帧数配置相当的情况下，显著优于其他开源模型，部分任务上接近甚至超越GPT-4o、Gemini-1.5-Pro等专有模型
仅使用8K高质量时序标注样本结合强化学习进行后训练，大幅减少训练数据需求

实际应用价值

为长视频理解任务提供了有效的解决方案，特别擅长处理复杂时序信息和细节查询
展示了高质量小数据训练范式的有效性，避免了大规模监督微调的数据依赖
具有良好的时间可扩展性，随着视频时长增加获得更高性能收益

4️⃣ 术语表

Video-MTR：用于长视频理解的多轮强化推理框架，基于端到端强化学习与显式多轮推理
MLLMs：多模态大语言模型，作为决策智能体与视频环境交互
Gated Bi-Level Reward：结合轨迹级奖励和轮次级奖励的细粒度奖励机制，用于多轮推理的强化学习训练
PPO：近端策略优化算法，用于最大化策略模型的目标函数，包含比值裁剪机制
Reward Hacking：奖励黑客行为，指智能体利用奖励函数的漏洞，通过非预期行为（如重复检索）最大化奖励，而非真正提高任务性能

📄 打开原文 PDF