← 返回列表

🤖 系统

📄 Abstract - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

⏳ 正在获取摘要...

顶级标签: robotics

📄 论文总结

SimpleVLA-RL：通过强化学习扩展视觉-语言-动作模型训练

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

1️⃣ 一句话总结

本文提出了SimpleVLA-RL框架，通过高效的在线强化学习显著提升视觉-语言-动作模型在机器人操作任务中的性能、数据效率和泛化能力。

2️⃣ 论文创新点

1. SimpleVLA-RL高效强化学习框架

创新点是什么：专为VLA模型设计的高效在线强化学习框架，基于veRL构建，支持VLA特定的轨迹采样、可扩展并行化、多环境渲染和优化损失计算
与已有方法的区别/改进：解决了VLA模型面临的大规模人类操作数据稀缺和高成本问题，以及对分布偏移任务的有限泛化能力
为什么有意义：减少对大规模数据的依赖，实现鲁棒泛化，在真实世界任务中超越监督微调（SFT）

2. Group Relative Policy Optimization (GRPO)

创新点是什么：一种无需价值函数的强化学习方法，通过组归一化计算优势函数，采用PPO风格的裁剪和KL正则化来约束策略更新
与已有方法的区别/改进：消除了对价值函数的需求，简化了RL算法结构
为什么有意义：提高了训练稳定性和效率，为VLA模型的规模化RL训练提供了简单可扩展的范式

3. 二元任务完成奖励机制

创新点是什么：采用基于任务成功与否的简单二元奖励机制（0或1），奖励均匀传播给轨迹中的每个动作token
与已有方法的区别/改进：避免了任务特定奖励的不可转移性问题，简化了奖励设计
为什么有意义：提供可扩展、广泛适用的奖励方案，适用于多种环境

4. Pushcut现象发现

创新点是什么：在RL训练过程中，策略发现了监督数据中未见的新模式
与已有方法的区别/改进：扩展了模型的行为模式，超越了监督学习的限制
为什么有意义：表明RL能够使策略获得前所未有的新动作，为VLA模型的进一步优化和泛化提供了新的方向和可能性

3️⃣ 主要结果与价值

实验结果亮点

在LIBERO基准上平均成功率从17.1%提升至91.7%，在RoboTwin2.0的双臂任务上实现80%相对改进（从38.3%到68.8%）
在数据稀缺场景下，仅使用单条演示轨迹就将LIBERO平均成功率从48.9%提升至96.9%，甚至超过使用全部演示数据的91.0%
在长视野任务中表现突出，LIBERO-Long任务成功率从17.3%提升至91.7%，在超长视野任务中仍能实现11.1%-18.7%的增益

实际应用价值

显著降低高质量演示数据的获取成本和依赖，使VLA模型训练更加数据高效
仿真训练的策略能够有效迁移到真实世界，展示了实际部署的可行性
为大规模VLA模型训练提供了可扩展的解决方案，推动了具身智能的发展

4️⃣ 术语表

SimpleVLA-RL：针对视觉-语言-动作模型的高效强化学习框架，基于veRL构建，用于机器人操作任务
VLA：视觉-语言-动作模型，结合视觉感知、语言理解和动作生成的统一框架，用于机器人操作任务
GRPO：组相对策略优化，一种通过组归一化计算优势函数且无需价值函数的强化学习方法
LIBERO：机器人学习基准测试平台，包含空间、物体和目标三个维度的任务套件
RoboTwin：机器人仿真与真实世界测试平台
SFT：监督微调，使用人类演示数据对模型进行监督学习的方法
Pushcut现象：RL训练中发现的新现象，策略能够发现监督数据中未见的新行为模式

📄 打开原文 PDF