arXiv ID:
2602.20577
arXiv 提交日期: 2026-02-24
通过掩码视觉-语言-动作扩散实现高效且可解释的端到端自动驾驶 / Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion
1️⃣ 一句话总结
这篇论文提出了一种名为MVLAD-AD的新框架,它通过一种创新的掩码扩散模型,将驾驶场景的视觉和语言理解与精确的轨迹规划相结合,从而在保证高效运行和行动精度的同时,提供了清晰、可解释的决策过程。