← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: robotics

📄 论文总结

离散扩散视觉-语言-动作模型

Discrete Diffusion Vision-Language-Action Model

1️⃣ 一句话总结

该论文提出了一种基于离散扩散模型的视觉-语言-动作统一框架，通过将连续动作维度离散化为token，在单一Transformer架构中实现并行解码和自适应重掩码，在多个机器人任务基准上取得了最佳性能。

2️⃣ 论文创新点

1. 离散扩散动作解码

创新点是什么：将连续动作维度离散化为token序列，应用离散扩散模型进行动作生成
与已有方法的区别/改进：替代传统的自回归或连续扩散方法，提供更统一的架构
为什么有意义：保持扩散的渐进细化特性，同时与VLM的离散token接口原生兼容

2. 自适应解码策略

创新点是什么：采用'先易后难'的自适应解码顺序，通过迭代重掩码技术确保一致性
与已有方法的区别/改进：通过二次重掩码机制重新审视不确定预测，提高解码灵活性
为什么有意义：提高一致性并实现鲁棒的错误校正，支持并行动作令牌解码

3. 统一Transformer架构

创新点是什么：在单一Transformer中统一处理视觉、语言和动作，无需额外适配器
与已有方法的区别/改进：避免了专门的扩散训练和迭代采样需求，架构更加简洁
为什么有意义：保留预训练的视觉-语言先验，支持模型规模无缝扩展和并行解码

3️⃣ 主要结果与价值

实验结果亮点

在LIBERO基准上取得96.3%的平均成功率，优于自回归和连续扩散基线
在Google Robot和WidowX Robot平台上分别达到64.1%和49.3%的总体性能，均为最佳表现
使用最大置信度选择解码策略和温度衰减策略效果最佳，达到97.4%的成功率

实际应用价值

为大规模VLA研究铺平道路，继承统一Transformer的扩展行为
支持高效的非自回归动作生成，提高了推理速度
在不同机器人平台上展示了强泛化能力和鲁棒性

4️⃣ 术语表

Discrete Diffusion VLA：使用离散扩散模型进行动作解码的视觉-语言-动作统一框架，在单一Transformer架构中实现动作生成
VLA：视觉-语言-动作模型，将视觉和语言输入映射到机器人动作
action chunk：将连续控制维度离散化并组合成的固定长度的动作序列
MASK token：特殊掩码令牌，用于在扩散过程中替换原始动作令牌，支持迭代去噪过程
adaptive re-masking：自适应重掩码策略，在推理过程中根据置信度保留高置信度预测并重新掩码不确定位置
LIBERO：机器人操作任务基准数据集，包含Spatial、Object、Goal、Long四个任务套件，每个套件包含10个任务，提供500个专家演示

📄 打开原文 PDF