🤖 系统
10-14 16:02
📄 论文总结
Vlaser:一种具备协同具身推理能力的视觉-语言-动作基础模型 / Vlaser: A Vision-Language-Action Foundation Model with Synergistic Embodied Reasoning
1️⃣ 一句话总结
Vlaser是一个创新的视觉-语言-动作基础模型,通过构建高质量的Vlaser-6M数据集和系统研究VLM到VLA的适应范式,在多个具身推理基准测试中实现了最先进的性能,有效弥合了上游视觉语言模型推理与下游机器人策略学习之间的关键差距。
2️⃣ 论文创新点
1. Vlaser模型架构
- 创新点:结合典型视觉语言主干和用于低级控制的动作专家,基于InternVL3构建,专注于2B和8B规模以适应机器人计算限制
- 区别/改进:扩展多模态大语言模型以包含低级机器人控制,验证不同数据流在下游VLA微调中的能力
- 意义:增强具身代理的端到端控制能力,提升在开放环境推理和闭环控制场景中的适用性
2. Vlaser-6M数据集
- 创新点:通过整理、重组和标注公共数据集系统化构建的高质量具身推理数据集,包含600万样本
- 区别/改进:提供专门针对具身推理的高质量训练数据,覆盖通用具身问答、视觉定位、空间智能、任务规划和领域内仿真数据
- 意义:为具身视觉语言模型提供全面的数据基础,支持强泛化能力,在多个具身推理基准测试中取得最先进性能
3. VLM到VLA适应范式研究
- 创新点:系统性研究哪种视觉语言预训练数据对下游VLA策略学习最有效
- 区别/改进:发现领域内数据比领域外数据更能加速收敛和提高任务成功率
- 意义:为未来具身视觉语言模型构建提供重要见解,缩小领域差距
4. 基于流匹配的VLA训练方法
- 创新点:使用动作块和流匹配技术进行去噪训练,通过动作编码器将噪声动作编码为单个令牌,并训练网络匹配去噪向量场
- 区别/改进:通过积分学习到的向量场从随机噪声生成动作,提高了动作生成的准确性和鲁棒性
- 意义:有效缩小了基础VLM与下游VLA任务性能之间的差距,为未来具身VLM的构建提供了指导
3️⃣ 主要结果与价值
结果亮点
- 在12个具身推理基准测试中全面评估,涵盖问答、规划、具身基础、空间智能和闭环仿真等多个方面
- Vlaser-8B在中等规模模型中取得最佳平均性能,Vlaser-2B在简单任务上表现更好,而Vlaser-8B在复杂任务上更优
- 微调后,2B模型平均得分从15.2提升到45.3,8B模型从22.3提升到51.3
- 在WidowX基准测试中取得最先进结果,在Google Robot基准测试中具有竞争力
- 总体得分优于当前最先进的具身特定VLMs,如RoboBrain2.0和Embodied-R1,总体得分高出10%
实际价值
- 增强了具身代理的端到端控制能力,提升了在真实世界环境中的适应性
- 为通用具身AI的发展提供了初步步骤,推动了连接具身推理与VLA策略学习的进展
- 建立了全面的具身推理能力评估标准,推动了该领域的研究和发展
- 揭示了针对性数据训练对提升机器人底层控制性能的重要性
4️⃣ 术语表
- Vlaser:具备协同具身推理能力的视觉-语言-动作基础模型,专注于具身推理和端到端机器人控制,基于InternVL3构建,优化用于机器人计算约束
- Vlaser-6M:高质量的数据集,包含600万样本,涵盖多任务具身数据(如问答、接地、空间推理和规划)以及领域内仿真源数据对
- VLA:视觉-语言-动作模型,结合视觉、语言和动作处理,用于具身代理的感知、推理和控制
- InternVL3:Vlaser模型基于该模型进行监督微调的基础视觉语言模型
- SimplerEnv:开源的模拟环境套件,用于以可扩展、可复制的方式评估真实世界机器人操作策略,具有强大的真实vs模拟相关性
- 闭环控制:在特定机器人具身下对底层控制进行闭环操作
- 领域偏移:互联网数据与对应机器人具身之间的领域差异