📄 论文总结
VLA-0:基于文本动作表示的视觉语言动作模型 / VLA-0: Vision-Language-Action Model with Textual Action Representation
1️⃣ 一句话总结
VLA-0是一种创新的视觉语言动作模型,通过直接将机器人动作表示为文本字符串,无需修改基础视觉语言模型的架构或词汇表,在LIBERO基准测试中超越了现有方法并表现出优越性能。
2️⃣ 论文创新点
1. 文本动作表示
- 创新点:将机器人动作直接表示为文本字符串而非离散令牌或使用生成动作头
- 区别/改进:避免了修改VLM词汇表或引入额外神经网络组件
- 意义:保持了VLM的预训练语言理解能力,同时实现了高性能的动作预测
2. 整数动作解码
- 创新点:将连续动作值归一化为固定整数范围,让VLM为每个动作维度生成整数
- 区别/改进:相比基于离散令牌的VLA,允许任意分辨率而无需改变模型词汇表
- 意义:简化了动作生成任务,提高了动作表示的灵活性
3. 集成预测技术
- 创新点:采用动作分块变换器引入的预测集成技术,平均多个时间步的预测结果
- 区别/改进:通过平均n个时间步的预测,生成更稳定的最终动作
- 意义:提高了动作预测的稳定性和准确性
4. 掩码动作增强
- 创新点:在训练中随机掩码目标动作字符串中的字符
- 区别/改进:强制VLM基于视觉观察和指令进行推理,而非简单地自动完成数值序列
- 意义:增强模型对视觉和语言信息的依赖,提高了泛化能力
3️⃣ 主要结果与价值
结果亮点
- 在LIBERO基准测试中超越所有现有方法,包括π0.5-KI、OpenVLA-OFT和SmolVLA
- 在未进行大规模动作预训练的情况下,性能优于多个经过预训练的知名VLA模型
- 在真实世界任务中比SmolVLA性能提升12.5个百分点
- 动作集成技术提升2.0个百分点成功率,掩码动作增强提供1.2个百分点的稳定提升
实际价值
- 无需复杂预训练或定制架构即可构建高性能视觉语言动作模型
- 简化了高性能VLA的开发流程,降低了技术门槛
- 支持任意动作分辨率,适应不同的机器人控制需求
- 推理速度为4Hz(使用5090 GPU),未来可通过蒸馏或量化优化速度
4️⃣ 术语表
- VLA-0:一种通过直接将动作表示为文本来构建视觉-语言-动作模型的方法,无需修改基础VLM的词汇表或添加特殊动作头
- LIBERO:用于评估VLA模型的流行基准测试平台,包含Spatial、Object、Goal、Long四个测试套件,评估系统在不同维度的能力
- VLA:Vision-Language-Action,视觉语言动作模型,结合视觉和语言理解进行机器人动作控制
- VLM:Vision-Language Model,视觉语言模型,能够同时处理视觉和语言信息的AI模型
- Qwen-VL-2.5:使用的300亿参数视觉语言模型,作为VLA-0的基础模型