arXiv ID:
2603.14851
AutoMoT:一种用于端到端自动驾驶的、具有异步混合Transformer的统一视觉-语言-动作模型 / AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving
1️⃣ 一句话总结
这篇论文提出了一个名为AutoMoT的新型自动驾驶模型,它巧妙地将视觉理解、语言推理和动作规划整合在一个框架内,通过异步处理机制既保留了通用大模型的推理能力,又实现了高效、实时的驾驶决策。