← 返回列表

菜单

🤖 系统
📄 Abstract - Unified Diffusion Vision-Language-Action Model
正在获取摘要...
顶级标签: robotics
详细标签: diffusion models vision-language-action robot manipulation joint denoising multi-modal unification 或 搜索:

📄 论文总结

统一扩散视觉-语言-动作模型 / Unified Diffusion Vision-Language-Action Model


1️⃣ 一句话总结

本文提出了一种统一的视觉-语言-动作模型,通过联合离散去噪扩散过程将理解、生成和行动任务内在协同,在多个基准测试中实现了最先进性能,推理速度比自回归方法快4倍。


2️⃣ 论文创新点

1. 联合离散去噪扩散过程(JD3P)

2. 混合注意力机制

3. 统一多模态标记空间

4. 端到端统一VLA范式


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF