📄 论文总结
iFlyBot-VLA: 大规模视觉-语言-动作模型 / iFlyBot-VLA: A Large-Scale Vision-Language-Action Model
1️⃣ 一句话总结
iFlyBot-VLA是一个在大规模人类和机器人操作视频上训练的视觉-语言-动作模型,通过创新的潜在动作模型、双级动作表示框架和混合训练策略,在复杂操作任务中实现了优越的性能。
2️⃣ 论文创新点
1. 潜在动作模型
- 创新点:基于VQ-VAE架构,从跨具身操作数据中学习离散的潜在动作表示
- 区别/改进:通过帧间变化提供丰富的监督信号,捕捉隐含的高层意图
- 意义:增强了模型对操作意图的理解能力,为VLA训练提供有效的动作表示学习机制
2. 双级动作表示框架
- 创新点:结合潜在动作表示和结构化离散动作的显式监督,构建双级动作表示框架
- 区别/改进:同时预测潜在动作和结构化离散动作标记,实现VLM和动作专家的联合训练
- 意义:对齐语言、视觉和动作的表示空间,使VLM能直接贡献于动作生成
3. 多阶段训练流程
- 创新点:采用三阶段训练策略:自监督动作表示学习、基础预训练和任务特定后训练
- 区别/改进:通过分阶段训练避免了端到端训练中动作专家对VLM主干感知能力的退化
- 意义:保持了VLM的通用理解能力,同时提升了机器人控制的精确性
4. 混合数据训练策略
- 创新点:精心融合通用视觉语言QA、空间推理QA和机器人操作数据
- 区别/改进:优化数据配比,增强模型泛化性能,潜在动作网络不依赖文本输入
- 意义:提升了策略在多样任务中的适应能力,平衡多模态训练
3️⃣ 主要结果与价值
结果亮点
- 在LIBERO基准测试中取得93.8%的平均准确率,优于π0(86%)和OpenVLA(76.5%)
- 在通用拾取任务的四种配置(基础场景、未见物体、光照变化、未见场景)中均取得较高成功率(96.25%、96.04%、88.21%、93.57%)
- 在长视野包裹分拣任务中,在允许修正的标准下比基线模型成功率高7.5%
- 在衣物折叠任务中,采用drag-flattening方法结合模型与优化的推理策略,在单一平整化步骤中取得约90%的成功率
实际价值
- 实现了从感知到动作的端到端控制,特别适合高频操作任务
- 在变化的光照、物体和环境条件下具有良好的适应性
- 能够处理复杂的长视野操作和可变形物体(如衣物)操作
- 推理时只需计算一次VLM的KV缓存,确保高效稳定的动作生成
4️⃣ 术语表
- iFlyBot-VLA:大规模视觉-语言-动作模型,采用新颖训练框架,基于Qwen2.5-VL骨干,通过多阶段训练生成机器人动作
- LIBERO:用于评估机器人视觉语言动作模型的基准测试套件,包含四个专门的任务套件:空间推理、物体泛化、目标适应和长视野任务
- VQ-VAE:矢量量化变分自编码器,用于学习离散的潜在动作表示
- NSVQ:噪声基向量量化算法,用于解决VQ-VAE训练中的梯度崩溃问题
- Diffusion Transformer:扩散Transformer专家网络,用于生成连续机器人动作
- flow-matching:iFlyBot-VLA中使用的动作预测机制,通过流匹配生成机器人动作
- noised action:由目标动作窗口、时间步和高斯噪声组成的噪声动作,用于训练模型预测去噪方向
- flick flattening:一种衣物平整化动作,要求对速度和加速度进行精确控制
- drag flattening:一种沿桌边进行的衣物平整化动作,需要准确感知衣物状态和关键特征点
- parcel sorting:长视野双臂操作任务,涉及变形包裹的分拣,包括抓取、翻转、放置等步骤