arXiv最新AI论文速览速学

🔍

标签: #autonomous driving ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Scaling Learning-based AEB with Massive Unlabeled Data 06-18

arXiv ID: 2512.16760

arXiv 提交日期: 2025-12-18

multi-modal agents systems autonomous driving vision-language-action decision making planning benchmark

自动驾驶中的视觉-语言-动作模型：过去、现在与未来 / Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future

1️⃣ 一句话总结

这篇论文系统梳理了自动驾驶技术从传统模块化框架到新型视觉-语言-动作（VLA）模型的发展历程，指出VLA模型通过整合视觉感知、语言推理和动作生成，为实现更可解释、更通用且更符合人类意图的自动驾驶系统提供了新方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.12799

arXiv 提交日期: 2025-12-14

multi-modal agents systems autonomous driving 4d mllm perception prediction planning vision-language-action spatial understanding

DrivePI：用于自动驾驶统一理解、感知、预测与规划的空间感知4D多模态大语言模型 / DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning

1️⃣ 一句话总结

本文提出了一种名为DrivePI的新型空间感知多模态大模型，它能够在一个统一的框架内，同时处理自动驾驶中的环境理解、三维物体感知、未来轨迹预测和驾驶规划任务，并且性能超越了现有的大型模型和专门模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.12751

arXiv 提交日期: 2025-12-14

computer vision multi-modal model training world model video generation 4d occupancy autonomous driving physics-aware

GenieDrive：迈向基于4D占据空间引导视频生成的物理感知驾驶世界模型 / GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为GenieDrive的新框架，它通过先生成包含丰富物理信息的4D占据空间，再以此为基础生成驾驶视频，从而解决了现有方法生成视频时物理不一致的问题，实现了更可控、高质量且符合物理规律的驾驶场景模拟。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.09864

arXiv 提交日期: 2025-12-10

agents multi-modal systems autonomous driving video generation planning reasoning vision-language-action

UniUGP：面向端到端自动驾驶的统一理解、生成与规划框架 / UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一个名为UniUGP的端到端自动驾驶框架，它通过整合场景理解、未来视频生成和轨迹规划，并利用专门的数据集和分阶段训练策略，有效提升了系统在复杂和罕见路况下的感知、推理与决策能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05277

arXiv 提交日期: 2025-12-04

multi-modal benchmark computer vision autonomous driving temporal reasoning vision-language model evaluation cognitive map

从片段到场景：通过视觉语言模型实现自动驾驶中的时序理解 / From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model

1️⃣ 一句话总结

这篇论文针对自动驾驶视频中时序理解这一难题，提出了一个专门的评测基准TAD，并设计了两种无需额外训练的方法来提升现有视觉语言模型对动态场景的理解能力，显著提高了模型在该基准上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01830

arXiv 提交日期: 2025-12-01

agents llm natural language processing autonomous driving reinforcement fine-tuning vision-language model reasoning planning

OpenREAD：基于LLM作为评判者的强化开放式推理端到端自动驾驶 / OpenREAD: Reinforced Open-Ended Reasoning for End-to-End Autonomous Driving with LLM-as-Critic

1️⃣ 一句话总结

这篇论文提出了一个名为OpenREAD的端到端自动驾驶框架，它通过使用大型语言模型作为评判者来量化开放式问题的推理质量，并利用强化学习对整个系统进行联合优化，从而在推理和规划任务上取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.23369

arXiv 提交日期: 2025-11-28

robotics systems model training autonomous driving simulation neural rendering data synthesis co-training

SimScale：通过大规模真实世界仿真学习驾驶 / SimScale: Learning to Drive via Real-World Simulation at Scale

1️⃣ 一句话总结

这篇论文提出了一个名为SimScale的新型仿真框架，它能够利用现有的真实驾驶数据，通过神经渲染和反应式环境生成大量高保真、多样化的模拟驾驶场景，并配合一种伪专家轨迹生成机制来提供训练监督，从而显著提升自动驾驶规划模型在安全关键和罕见场景下的鲁棒性与泛化能力，且其性能提升仅需增加模拟数据即可平滑扩展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.16518

arXiv 提交日期: 2025-11-20

robotics multi-modal model training embodied ai autonomous driving foundation model cross-embodied multi-stage learning

MiMo-Embodied：跨具身基础模型技术报告 / MiMo-Embodied: X-Embodied Foundation Model Technical Report

1️⃣ 一句话总结

这篇论文开源了首个跨具身基础模型MiMo-Embodied，它通过多阶段学习和优化训练方法，在自动驾驶和具身AI两大领域同时实现了顶尖性能，并证明了这两个领域能够相互促进和提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.20109

arXiv 提交日期: 2025-09-24

robotics multi-modal model training autonomous driving diffusion models trajectory generation safety reflection vision-language-action

用于自动驾驶中反射式视觉-语言-动作模型的离散扩散方法 / Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一种名为ReflectDrive的新型自动驾驶框架，它通过离散扩散和无需梯度计算的安全反射机制，实现了更安全、可扩展的轨迹生成，克服了现有方法依赖复杂规则或模拟环境的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.16760

1️⃣ 一句话总结

arXiv ID: 2512.12799

1️⃣ 一句话总结

arXiv ID: 2512.12751

1️⃣ 一句话总结

arXiv ID: 2512.09864

1️⃣ 一句话总结

arXiv ID: 2512.05277

1️⃣ 一句话总结

arXiv ID: 2512.01830

1️⃣ 一句话总结

arXiv ID: 2511.23369

1️⃣ 一句话总结

arXiv ID: 2511.16518

1️⃣ 一句话总结

arXiv ID: 2509.20109

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.16760 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.12799 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.12751 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.09864 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05277 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01830 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.23369 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.16518 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.20109 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.16760

arXiv ID: 2512.12799

arXiv ID: 2512.12751

arXiv ID: 2512.09864

arXiv ID: 2512.05277

arXiv ID: 2512.01830

arXiv ID: 2511.23369

arXiv ID: 2511.16518

arXiv ID: 2509.20109