arXiv ID:
2512.22615
Dream-VL 与 Dream-VLA:基于扩散语言模型骨干的开放视觉-语言与视觉-语言-动作模型 / Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone
1️⃣ 一句话总结
这篇论文提出了基于扩散语言模型的新型视觉-语言模型Dream-VL和视觉-语言-动作模型Dream-VLA,它们在多项基准测试中表现优异,尤其在视觉规划和机器人控制任务上展现出比传统自回归模型更强的能力,例如能更快地学习动作序列并实现更高的任务成功率。