🤖 系统
09-12 14:29
📄 论文总结
SimpleVLA-RL:通过强化学习扩展视觉-语言-动作模型训练
SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
1️⃣ 一句话总结
本文提出了SimpleVLA-RL框架,通过高效的在线强化学习显著提升视觉-语言-动作模型在机器人操作任务中的性能、数据效率和泛化能力。
2️⃣ 论文创新点
1. SimpleVLA-RL高效强化学习框架
- 创新点是什么:专为VLA模型设计的高效在线强化学习框架,基于veRL构建,支持VLA特定的轨迹采样、可扩展并行化、多环境渲染和优化损失计算
- 与已有方法的区别/改进:解决了VLA模型面临的大规模人类操作数据稀缺和高成本问题,以及对分布偏移任务的有限泛化能力
- 为什么有意义:减少对大规模数据的依赖,实现鲁棒泛化,在真实世界任务中超越监督微调(SFT)
2. Group Relative Policy Optimization (GRPO)
- 创新点是什么:一种无需价值函数的强化学习方法,通过组归一化计算优势函数,采用PPO风格的裁剪和KL正则化来约束策略更新
- 与已有方法的区别/改进:消除了对价值函数的需求,简化了RL算法结构
- 为什么有意义:提高了训练稳定性和效率,为VLA模型的规模化RL训练提供了简单可扩展的范式
3. 二元任务完成奖励机制
- 创新点是什么:采用基于任务成功与否的简单二元奖励机制(0或1),奖励均匀传播给轨迹中的每个动作token
- 与已有方法的区别/改进:避免了任务特定奖励的不可转移性问题,简化了奖励设计
- 为什么有意义:提供可扩展、广泛适用的奖励方案,适用于多种环境
4. Pushcut现象发现
- 创新点是什么:在RL训练过程中,策略发现了监督数据中未见的新模式
- 与已有方法的区别/改进:扩展了模型的行为模式,超越了监督学习的限制
- 为什么有意义:表明RL能够使策略获得前所未有的新动作,为VLA模型的进一步优化和泛化提供了新的方向和可能性
3️⃣ 主要结果与价值
实验结果亮点
- 在LIBERO基准上平均成功率从17.1%提升至91.7%,在RoboTwin2.0的双臂任务上实现80%相对改进(从38.3%到68.8%)
- 在数据稀缺场景下,仅使用单条演示轨迹就将LIBERO平均成功率从48.9%提升至96.9%,甚至超过使用全部演示数据的91.0%
- 在长视野任务中表现突出,LIBERO-Long任务成功率从17.3%提升至91.7%,在超长视野任务中仍能实现11.1%-18.7%的增益
实际应用价值
- 显著降低高质量演示数据的获取成本和依赖,使VLA模型训练更加数据高效
- 仿真训练的策略能够有效迁移到真实世界,展示了实际部署的可行性
- 为大规模VLA模型训练提供了可扩展的解决方案,推动了具身智能的发展
4️⃣ 术语表
- SimpleVLA-RL:针对视觉-语言-动作模型的高效强化学习框架,基于veRL构建,用于机器人操作任务
- VLA:视觉-语言-动作模型,结合视觉感知、语言理解和动作生成的统一框架,用于机器人操作任务
- GRPO:组相对策略优化,一种通过组归一化计算优势函数且无需价值函数的强化学习方法
- LIBERO:机器人学习基准测试平台,包含空间、物体和目标三个维度的任务套件
- RoboTwin:机器人仿真与真实世界测试平台
- SFT:监督微调,使用人类演示数据对模型进行监督学习的方法
- Pushcut现象:RL训练中发现的新现象,策略能够发现监督数据中未见的新行为模式