arXiv ID:
2512.23703
arXiv 提交日期: 2025-12-29
Robo-Dopamine:用于高精度机器人操作的通用工序奖励建模 / Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation
1️⃣ 一句话总结
本文提出了一种名为Dopamine-Reward的新方法,通过构建一个能理解操作步骤细节、融合多视角信息的通用奖励模型,并结合一个理论上更可靠的奖励塑造框架,解决了机器人强化学习中奖励函数设计难、训练效率低的问题,使机器人仅需少量真实交互就能快速学会复杂精细的操作任务。