← 返回列表

🤖 系统

📄 Abstract - MOSS-ChatV: A Reinforcement Learning Framework for Video Temporal Reasoning with Process Reasoning Reward

⏳ 正在获取摘要...

📄 论文总结

MOSS-ChatV：基于过程推理奖励的视频时序推理强化学习框架

MOSS-ChatV: A Reinforcement Learning Framework for Video Temporal Reasoning with Process Reasoning Reward

1️⃣ 一句话总结

MOSS-ChatV是一个用于视频时序推理的强化学习框架，通过引入基于动态时间规整的过程推理奖励机制，解决了多模态大语言模型在视频推理中的'过程不一致性'问题，无需额外奖励模型即可实现高效的过程监督。

2️⃣ 论文创新点

1. 过程推理奖励(PRR)

创新点是什么：设计了一个基于动态时间规整的规则化过程推理奖励机制，用于视频推理任务
与已有方法的区别/改进：通过'分割-对齐'策略将推理轨迹分解为子步骤，使用DTW对齐生成过程与参考过程，以距离作为奖励信号
为什么有意义：无需学习奖励模型即可监督时序一致性，解决了模型绕过时序推理直接猜测结果的'时序黑客'问题，提升了推理的可解释性和鲁棒性

2. MOSS-Video基准数据集

创新点是什么：构建了一个用于视频状态预测并带有注释推理轨迹的数据集
与已有方法的区别/改进：数据集包含训练集和测试集划分，支持过程监督学习并确保留出评估
为什么有意义：为视频推理提供细粒度的时序推理监督信号，将动态状态预测作为推理能力的关键衡量指标

3. 子序列动态时间规整(SDTW)

创新点是什么：使用高效的动态规划算法量化不同长度序列间的对齐程度
与已有方法的区别/改进：能最优识别模型推理序列中与整个参考序列对应的最佳匹配子序列
为什么有意义：实现推理步骤的时序对齐，最小化累积距离

4. 多奖励融合机制

创新点是什么：将过程奖励、准确率奖励和格式奖励结合形成总奖励
与已有方法的区别/改进：R_total,i = R_proc,i + R_acc,i + R_fmt,i
为什么有意义：同时鼓励时间连贯性、准确性和格式正确性

3️⃣ 主要结果与价值

实验结果亮点

在MOSS-Video测试集上达到87.2%准确率，超越GPT-4o等基线模型
在MVBench上达到67.6%准确率，在RTVBench等实时基准测试中表现优异
在TempCompass上相比Qwen2.5-VL有所提升，验证了跨架构泛化能力
消融实验表明完整MOSS-ChatV模型在所有基准测试中表现最佳，过程监督对提升推理质量有显著贡献

实际应用价值

即使在低质量视频输入下也能取得优异表现，具有良好的鲁棒性
增加输入帧数能提升状态预测性能，视频预测任务能有效增强模型的推理能力
方法不依赖特定模型架构，在TinyLLaVA-Video等不同架构上均能带来一致提升
为复杂时序推理任务提供更精细的过程级监督，提高推理-答案一致性

4️⃣ 术语表

MOSS-ChatV：一个用于视频时序推理的强化学习框架，采用基于动态时间规整的过程推理奖励，在多个视频理解基准测试中达到最优性能
MOSS-Video：一个用于视频状态预测、带有注释推理轨迹的基准数据集，包含11,654个训练样本和2,836个测试样本，支持过程监督强化学习
PRR：过程推理奖励，利用参考注释监督中间推理过程的规则化奖励机制，基于子序列动态时间规整实现时序对齐
SDTW：子序列动态时间规整，用于对齐参考推理路径和模型生成序列的高效算法，能最优识别匹配子序列
GRPO：组相对策略优化，一种无需学习价值函数的强化学习优化方法
Naive DTW：基础动态时间规整方法，会导致奖励黑客现象，使模型产生过短推理
最小黄金标准策略：将标注推理过程视为最小黄金标准而非绝对标准的策略，避免过度限制模型的合法探索

📄 打开原文 PDF