arXiv ID:
2511.15605
arXiv 提交日期: 2025-11-19
自参考策略优化:面向视觉-语言-动作模型 / SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models
1️⃣ 一句话总结
这项研究提出了一种自参考策略优化方法,通过利用模型自身成功轨迹作为参考来为失败尝试打分,无需额外演示或人工设计奖励,显著提升了机器人操作任务的训练效率和性能。