← 返回列表

菜单

🤖 系统
📄 Abstract - VR-Thinker: A Visual Reasoning Enhanced Multimodal Reward Model
正在获取摘要...
详细标签: visual reasoning reward model video processing reinforcement learning long-context modeling 或 搜索:

📄 论文总结

VR-Thinker:基于视觉推理的多模态奖励模型 / VR-Thinker: A Visual Reasoning Enhanced Multimodal Reward Model


1️⃣ 一句话总结

VR-Thinker是首个支持视觉推理的多模态奖励模型,通过Thinking-with-Image框架解决了传统视频奖励模型在处理长视频时的上下文限制和视觉信息遗忘问题。


2️⃣ 论文创新点

1. Thinking-with-Image框架

2. VR-Thinker模型架构

3. 窗口内存机制

4. 多阶段奖励模型训练流程

5. GRPO强化学习框架

6. 多维度准确度奖励机制


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF