arXiv最新AI论文速览速学

🔍

标签: #vision-language-action ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving 03-12

arXiv ID: 2603.11041

arXiv 提交日期: 2026-03-11

agents computer vision multi-modal autonomous driving world dynamics chain-of-thought action reasoning vision-language-action

DynVLA：学习世界动态以实现自动驾驶中的行为推理 / DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一种名为DynVLA的自动驾驶模型，它通过预测未来世界的紧凑动态变化来辅助决策，比单纯依赖文字或密集图像预测的方法更高效、更准确。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09465

arXiv 提交日期: 2026-03-10

multi-modal agents model training autonomous driving vision-language-action knowledge distillation trajectory planning collaborative perception

EvoDriveVLA：通过协同感知-规划蒸馏进化的自动驾驶视觉-语言-动作模型 / EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

1️⃣ 一句话总结

这篇论文提出了一种名为EvoDriveVLA的新方法，通过结合‘自我锚定’的视觉约束和‘先知引导’的轨迹优化，协同训练自动驾驶模型，有效解决了模型在长期规划中感知能力下降和决策不稳定的问题，从而显著提升了自动驾驶系统的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03195

arXiv 提交日期: 2026-03-03

robotics multi-modal model training world models latent motion vision-language-action embodied ai video prediction

世界之链：潜在运动中的世界模型思维 / Chain of World: World Model Thinking in Latent Motion

1️⃣ 一句话总结

这篇论文提出了一种名为CoWVLA的新方法，它通过将视频分解为结构和运动两部分，并让AI模型学习预测连续的运动链，从而更高效地训练机器人视觉-语言-动作模型，使其既能理解世界动态，又保持模型简洁。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01441

arXiv 提交日期: 2026-03-02

multi-modal agents model training autonomous driving vision-language-action instruction alignment efficient generation cross-modal consistency

面向自动驾驶的语言-动作理解与生成的统一模型 / Unifying Language-Action Understanding and Generation for Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一种名为LinkVLA的新架构，通过统一语言与动作的表示并引入双向训练目标，解决了自动驾驶中指令与动作不对齐以及动作生成效率低下的问题，从而显著提升了驾驶性能并大幅减少了推理时间。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22514

arXiv 提交日期: 2026-02-26

robotics multi-modal agents sign language human-robot interaction vision-language-action gesture recognition embodied ai

SignVLA：一种用于实时手语引导机器人操作的免注释词视觉-语言-动作框架 / SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation

1️⃣ 一句话总结

这篇论文提出了一种名为SignVLA的新框架，它能让机器人直接看懂人的手语手势并执行相应操作，无需依赖复杂的手语注释作为中间步骤，从而实现了更自然、低成本且适合安全关键环境的实时人机交互。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22010

arXiv 提交日期: 2026-02-25

robotics multi-modal model training world modeling vision-language-action action generation future prediction human manipulation

世界引导：在条件空间中为动作生成进行世界建模 / World Guidance: World Modeling in Condition Space for Action Generation

1️⃣ 一句话总结

这篇论文提出了一个名为‘世界引导’的新框架，它通过将预测的未来场景压缩成简洁的‘条件’，来更有效地指导AI模型生成精确的动作，从而在机器人和智能体控制任务上取得了比直接预测未来更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20577

arXiv 提交日期: 2026-02-24

multi-modal agents model training autonomous driving vision-language-action diffusion model action tokenization explainable ai

通过掩码视觉-语言-动作扩散实现高效且可解释的端到端自动驾驶 / Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion

1️⃣ 一句话总结

这篇论文提出了一种名为MVLAD-AD的新框架，它通过一种创新的掩码扩散模型，将驾驶场景的视觉和语言理解与精确的轨迹规划相结合，从而在保证高效运行和行动精度的同时，提供了清晰、可解释的决策过程。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20659

arXiv 提交日期: 2026-02-24

robotics multi-modal agents vision-language-action long-horizon manipulation belief state partial observability diffusion policy

递归信念视觉语言模型 / Recursive Belief Vision Language Model

1️⃣ 一句话总结

这篇论文提出了一个名为RB-VLA的新模型，它通过引入一个持续更新的内部‘信念’状态来记住任务历史和物体交互，从而显著提升了机器人在部分可观测环境下执行多步骤操作任务的成功率和效率，并大幅降低了计算延迟。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20566

arXiv 提交日期: 2026-02-24

robotics multi-modal model training token pruning vision-language-action robotic manipulation efficiency multi-view

BFA++：面向多视角视觉语言动作模型的分层最佳特征感知令牌剪枝 / BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

1️⃣ 一句话总结

本文提出了一种名为BFA++的动态令牌剪枝框架，它通过分层策略智能筛选多视角图像中的关键视觉信息，从而在显著提升机器人操作模型计算速度的同时，保持甚至提高了任务执行的成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20309

arXiv 提交日期: 2026-02-23

multi-modal model training systems post-training quantization vision-language-action diffusion transformer model compression embodied ai

QuantVLA：面向视觉-语言-动作模型的尺度校准训练后量化方法 / QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

1️⃣ 一句话总结

这篇论文提出了一种名为QuantVLA的训练后量化框架，它能在不重新训练模型的情况下，大幅压缩视觉-语言-动作模型的存储占用并提升推理速度，同时保持甚至超越原始模型的性能，为在资源受限设备上部署这类复杂的AI模型提供了实用方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.11041

1️⃣ 一句话总结

arXiv ID: 2603.09465

1️⃣ 一句话总结

arXiv ID: 2603.03195

1️⃣ 一句话总结

arXiv ID: 2603.01441

1️⃣ 一句话总结

arXiv ID: 2602.22514

1️⃣ 一句话总结

arXiv ID: 2602.22010

1️⃣ 一句话总结

arXiv ID: 2602.20577

1️⃣ 一句话总结

arXiv ID: 2602.20659

1️⃣ 一句话总结

arXiv ID: 2602.20566

1️⃣ 一句话总结

arXiv ID: 2602.20309

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.11041 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09465 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03195 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01441 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22514 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22010 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20577 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20659 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20566 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20309 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.11041

arXiv ID: 2603.09465

arXiv ID: 2603.03195

arXiv ID: 2603.01441

arXiv ID: 2602.22514

arXiv ID: 2602.22010

arXiv ID: 2602.20577

arXiv ID: 2602.20659

arXiv ID: 2602.20566

arXiv ID: 2602.20309