🤖 系统
11-30 17:55
📄 论文总结
自参考策略优化:面向视觉-语言-动作模型 / SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models
1️⃣ 一句话总结
这项研究提出了一种自参考策略优化方法,通过利用模型自身成功轨迹作为参考来为失败尝试打分,无需额外演示或人工设计奖励,显著提升了机器人操作任务的训练效率和性能。
请先 登录 后再提交论文
自参考策略优化:面向视觉-语言-动作模型 / SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models
这项研究提出了一种自参考策略优化方法,通过利用模型自身成功轨迹作为参考来为失败尝试打分,无需额外演示或人工设计奖励,显著提升了机器人操作任务的训练效率和性能。