2511.01914 – Summary

📄 论文总结

iFlyBot-VLA: 大规模视觉-语言-动作模型 / iFlyBot-VLA: A Large-Scale Vision-Language-Action Model

1️⃣ 一句话总结

iFlyBot-VLA是一个在大规模人类和机器人操作视频上训练的视觉-语言-动作模型，通过创新的潜在动作模型、双级动作表示框架和混合训练策略，在复杂操作任务中实现了优越的性能。

2️⃣ 论文创新点

1. 潜在动作模型

创新点：基于VQ-VAE架构，从跨具身操作数据中学习离散的潜在动作表示
区别/改进：通过帧间变化提供丰富的监督信号，捕捉隐含的高层意图
意义：增强了模型对操作意图的理解能力，为VLA训练提供有效的动作表示学习机制

2. 双级动作表示框架

创新点：结合潜在动作表示和结构化离散动作的显式监督，构建双级动作表示框架
区别/改进：同时预测潜在动作和结构化离散动作标记，实现VLM和动作专家的联合训练
意义：对齐语言、视觉和动作的表示空间，使VLM能直接贡献于动作生成

3. 多阶段训练流程

创新点：采用三阶段训练策略：自监督动作表示学习、基础预训练和任务特定后训练
区别/改进：通过分阶段训练避免了端到端训练中动作专家对VLM主干感知能力的退化
意义：保持了VLM的通用理解能力，同时提升了机器人控制的精确性

4. 混合数据训练策略

创新点：精心融合通用视觉语言QA、空间推理QA和机器人操作数据
区别/改进：优化数据配比，增强模型泛化性能，潜在动作网络不依赖文本输入
意义：提升了策略在多样任务中的适应能力，平衡多模态训练

3️⃣ 主要结果与价值

结果亮点

在LIBERO基准测试中取得93.8%的平均准确率，优于π0(86%)和OpenVLA(76.5%)
在通用拾取任务的四种配置（基础场景、未见物体、光照变化、未见场景）中均取得较高成功率（96.25%、96.04%、88.21%、93.57%）
在长视野包裹分拣任务中，在允许修正的标准下比基线模型成功率高7.5%
在衣物折叠任务中，采用drag-flattening方法结合模型与优化的推理策略，在单一平整化步骤中取得约90%的成功率

实际价值

实现了从感知到动作的端到端控制，特别适合高频操作任务
在变化的光照、物体和环境条件下具有良好的适应性
能够处理复杂的长视野操作和可变形物体（如衣物）操作
推理时只需计算一次VLM的KV缓存，确保高效稳定的动作生成

4️⃣ 术语表

iFlyBot-VLA：大规模视觉-语言-动作模型，采用新颖训练框架，基于Qwen2.5-VL骨干，通过多阶段训练生成机器人动作
LIBERO：用于评估机器人视觉语言动作模型的基准测试套件，包含四个专门的任务套件：空间推理、物体泛化、目标适应和长视野任务
VQ-VAE：矢量量化变分自编码器，用于学习离散的潜在动作表示
NSVQ：噪声基向量量化算法，用于解决VQ-VAE训练中的梯度崩溃问题
Diffusion Transformer：扩散Transformer专家网络，用于生成连续机器人动作
flow-matching：iFlyBot-VLA中使用的动作预测机制，通过流匹配生成机器人动作
noised action：由目标动作窗口、时间步和高斯噪声组成的噪声动作，用于训练模型预测去噪方向
flick flattening：一种衣物平整化动作，要求对速度和加速度进行精确控制
drag flattening：一种沿桌边进行的衣物平整化动作，需要准确感知衣物状态和关键特征点
parcel sorting：长视野双臂操作任务，涉及变形包裹的分拣，包括抓取、翻转、放置等步骤

← 返回列表

菜单

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 潜在动作模型

2. 双级动作表示框架

3. 多阶段训练流程

4. 混合数据训练策略

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 潜在动作模型

2. 双级动作表示框架

3. 多阶段训练流程

4. 混合数据训练策略

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要