← 返回列表

菜单

🤖 系统
📄 Abstract - MOSS-ChatV: A Reinforcement Learning Framework for Video Temporal Reasoning with Process Reasoning Reward
正在获取摘要...
详细标签: video temporal reasoning process reasoning reward dynamic time warping video state prediction multi-modal llm 或 搜索:

📄 论文总结

MOSS-ChatV:基于过程推理奖励的视频时序推理强化学习框架

MOSS-ChatV: A Reinforcement Learning Framework for Video Temporal Reasoning with Process Reasoning Reward


1️⃣ 一句话总结

MOSS-ChatV是一个用于视频时序推理的强化学习框架,通过引入基于动态时间规整的过程推理奖励机制,解决了多模态大语言模型在视频推理中的'过程不一致性'问题,无需额外奖励模型即可实现高效的过程监督。


2️⃣ 论文创新点

1. 过程推理奖励(PRR)

2. MOSS-Video基准数据集

3. 子序列动态时间规整(SDTW)

4. 多奖励融合机制


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF