📄 论文总结
MOSS-ChatV:基于过程推理奖励的视频时序推理强化学习 / MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为MOSS-ChatV的强化学习框架,通过引入基于动态时间规整的过程奖励机制,有效解决了多模态大语言模型在视频推理中存在的中间推理过程与视频动态不一致的问题,从而提升了模型推理的稳定性和可解释性,并在多个视频基准测试中取得了优异性能。