arXiv ID:
2603.15600
arXiv 提交日期: 2026-03-16
从被动观察者到主动批评家:强化学习激发机器人操作的过程推理 / From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation
1️⃣ 一句话总结
这篇论文提出了一个名为PRIMO R1的新框架,它利用强化学习训练小型视频模型,使其从单纯识别动作的‘观察者’转变为能主动评估任务进展的‘批评家’,从而在复杂的机器人操作任务中实现了更准确的过程监控和状态评估。