📄 论文总结
MOSS-ChatV:基于过程推理奖励的视频时序推理强化学习框架
MOSS-ChatV: A Reinforcement Learning Framework for Video Temporal Reasoning with Process Reasoning Reward
1️⃣ 一句话总结
MOSS-ChatV是一个用于视频时序推理的强化学习框架,通过引入基于动态时间规整的过程推理奖励机制,解决了多模态大语言模型在视频推理中的'过程不一致性'问题,无需额外奖励模型即可实现高效的过程监督。
2️⃣ 论文创新点
1. 过程推理奖励(PRR)
- 创新点是什么:设计了一个基于动态时间规整的规则化过程推理奖励机制,用于视频推理任务
- 与已有方法的区别/改进:通过'分割-对齐'策略将推理轨迹分解为子步骤,使用DTW对齐生成过程与参考过程,以距离作为奖励信号
- 为什么有意义:无需学习奖励模型即可监督时序一致性,解决了模型绕过时序推理直接猜测结果的'时序黑客'问题,提升了推理的可解释性和鲁棒性
2. MOSS-Video基准数据集
- 创新点是什么:构建了一个用于视频状态预测并带有注释推理轨迹的数据集
- 与已有方法的区别/改进:数据集包含训练集和测试集划分,支持过程监督学习并确保留出评估
- 为什么有意义:为视频推理提供细粒度的时序推理监督信号,将动态状态预测作为推理能力的关键衡量指标
3. 子序列动态时间规整(SDTW)
- 创新点是什么:使用高效的动态规划算法量化不同长度序列间的对齐程度
- 与已有方法的区别/改进:能最优识别模型推理序列中与整个参考序列对应的最佳匹配子序列
- 为什么有意义:实现推理步骤的时序对齐,最小化累积距离
4. 多奖励融合机制
- 创新点是什么:将过程奖励、准确率奖励和格式奖励结合形成总奖励
- 与已有方法的区别/改进:R_total,i = R_proc,i + R_acc,i + R_fmt,i
- 为什么有意义:同时鼓励时间连贯性、准确性和格式正确性
3️⃣ 主要结果与价值
实验结果亮点
- 在MOSS-Video测试集上达到87.2%准确率,超越GPT-4o等基线模型
- 在MVBench上达到67.6%准确率,在RTVBench等实时基准测试中表现优异
- 在TempCompass上相比Qwen2.5-VL有所提升,验证了跨架构泛化能力
- 消融实验表明完整MOSS-ChatV模型在所有基准测试中表现最佳,过程监督对提升推理质量有显著贡献
实际应用价值
- 即使在低质量视频输入下也能取得优异表现,具有良好的鲁棒性
- 增加输入帧数能提升状态预测性能,视频预测任务能有效增强模型的推理能力
- 方法不依赖特定模型架构,在TinyLLaVA-Video等不同架构上均能带来一致提升
- 为复杂时序推理任务提供更精细的过程级监督,提高推理-答案一致性
4️⃣ 术语表
- MOSS-ChatV:一个用于视频时序推理的强化学习框架,采用基于动态时间规整的过程推理奖励,在多个视频理解基准测试中达到最优性能
- MOSS-Video:一个用于视频状态预测、带有注释推理轨迹的基准数据集,包含11,654个训练样本和2,836个测试样本,支持过程监督强化学习
- PRR:过程推理奖励,利用参考注释监督中间推理过程的规则化奖励机制,基于子序列动态时间规整实现时序对齐
- SDTW:子序列动态时间规整,用于对齐参考推理路径和模型生成序列的高效算法,能最优识别匹配子序列
- GRPO:组相对策略优化,一种无需学习价值函数的强化学习优化方法
- Naive DTW:基础动态时间规整方法,会导致奖励黑客现象,使模型产生过短推理
- 最小黄金标准策略:将标注推理过程视为最小黄金标准而非绝对标准的策略,避免过度限制模型的合法探索