🤖 系统
09-01 15:51
📄 论文总结
离散扩散视觉-语言-动作模型
Discrete Diffusion Vision-Language-Action Model
1️⃣ 一句话总结
该论文提出了一种基于离散扩散模型的视觉-语言-动作统一框架,通过将连续动作维度离散化为token,在单一Transformer架构中实现并行解码和自适应重掩码,在多个机器人任务基准上取得了最佳性能。
2️⃣ 论文创新点
1. 离散扩散动作解码
- 创新点是什么:将连续动作维度离散化为token序列,应用离散扩散模型进行动作生成
- 与已有方法的区别/改进:替代传统的自回归或连续扩散方法,提供更统一的架构
- 为什么有意义:保持扩散的渐进细化特性,同时与VLM的离散token接口原生兼容
2. 自适应解码策略
- 创新点是什么:采用'先易后难'的自适应解码顺序,通过迭代重掩码技术确保一致性
- 与已有方法的区别/改进:通过二次重掩码机制重新审视不确定预测,提高解码灵活性
- 为什么有意义:提高一致性并实现鲁棒的错误校正,支持并行动作令牌解码
3. 统一Transformer架构
- 创新点是什么:在单一Transformer中统一处理视觉、语言和动作,无需额外适配器
- 与已有方法的区别/改进:避免了专门的扩散训练和迭代采样需求,架构更加简洁
- 为什么有意义:保留预训练的视觉-语言先验,支持模型规模无缝扩展和并行解码
3️⃣ 主要结果与价值
实验结果亮点
- 在LIBERO基准上取得96.3%的平均成功率,优于自回归和连续扩散基线
- 在Google Robot和WidowX Robot平台上分别达到64.1%和49.3%的总体性能,均为最佳表现
- 使用最大置信度选择解码策略和温度衰减策略效果最佳,达到97.4%的成功率
实际应用价值
- 为大规模VLA研究铺平道路,继承统一Transformer的扩展行为
- 支持高效的非自回归动作生成,提高了推理速度
- 在不同机器人平台上展示了强泛化能力和鲁棒性
4️⃣ 术语表
- Discrete Diffusion VLA:使用离散扩散模型进行动作解码的视觉-语言-动作统一框架,在单一Transformer架构中实现动作生成
- VLA:视觉-语言-动作模型,将视觉和语言输入映射到机器人动作
- action chunk:将连续控制维度离散化并组合成的固定长度的动作序列
- MASK token:特殊掩码令牌,用于在扩散过程中替换原始动作令牌,支持迭代去噪过程
- adaptive re-masking:自适应重掩码策略,在推理过程中根据置信度保留高置信度预测并重新掩码不确定位置
- LIBERO:机器人操作任务基准数据集,包含Spatial、Object、Goal、Long四个任务套件,每个套件包含10个任务,提供500个专家演示