arXiv最新AI论文速览速学

🔍

标签: #vision-language-action ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving 03-12

arXiv ID: 2602.14577

arXiv 提交日期: 2026-02-16

agents robotics model training autonomous driving vision-language-action diffusion models reinforcement learning mixture of experts

DriveFine：用于精确鲁棒驾驶的增强掩码扩散视觉语言动作模型 / DriveFine: Refining-Augmented Masked Diffusion VLA for Precise and Robust Driving

1️⃣ 一句话总结

这篇论文提出了一种名为DriveFine的新型自动驾驶规划模型，它巧妙地将扩散模型和基于令牌的模型的优势结合起来，通过一个创新的模块化专家设计，在生成驾驶动作的同时具备自我修正能力，从而在多个基准测试中实现了更精确、更鲁棒的驾驶性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11598

arXiv 提交日期: 2026-02-12

robotics multi-modal agents embodied navigation vision-language-action foundation model trajectory generation hierarchical architecture

ABot-N0技术报告：面向通用具身导航的视觉-语言-动作基础模型 / ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation

1️⃣ 一句话总结

这篇论文提出了一个名为ABot-N0的统一基础模型，它通过结合语言模型进行语义理解和新型动作模型生成连续轨迹，成功地将多种不同的机器人导航任务整合到一个框架中，并在大规模数据集上训练后，在多个标准测试中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11832

arXiv 提交日期: 2026-02-12

robotics model training multi-modal vision-language-action visual representation video predictive embedding robotic manipulation generalization

JEPA-VLA：视觉语言动作模型需要视频预测性嵌入 / JEPA-VLA: Video Predictive Embedding is Needed for VLA Models

1️⃣ 一句话总结

这篇论文提出，通过在现有视觉语言动作模型中引入一种从视频中预训练得到的、能预测环境动态的视觉表示，可以显著提升机器人操作任务的学习效率和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03310

arXiv 提交日期: 2026-02-03

robotics multi-modal model training vision-language-action zero-shot generalization universal manipulation interface robotic foundation model cross-embodiment

RDT2：探索UMI数据的规模极限以实现零样本跨硬件平台泛化 / RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

1️⃣ 一句话总结

这篇论文提出了一个名为RDT2的机器人基础模型，它通过收集大规模通用数据集和创新的训练方法，首次实现了无需额外训练就能让机器人完成新任务、适应新场景、甚至操控从未见过的硬件平台。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02212

arXiv 提交日期: 2026-02-02

multi-modal agents model training vision-language-action semantic abstraction decision-making perceptual redundancy topological affordance

MAIN-VLA：为视觉-语言-动作模型建模意图与环境的抽象 / MAIN-VLA: Modeling Abstraction of Intention and eNvironment for Vision-Language-Action Models

1️⃣ 一句话总结

这篇论文提出了一个名为MAIN-VLA的新框架，它通过将复杂的语言指令和视觉环境分别抽象成简洁的语义表示，帮助AI在复杂动态的3D游戏世界中更高效、更准确地做出决策，并显著提升了处理速度和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18692

arXiv 提交日期: 2026-01-26

robotics multi-modal model training vision-language-action robot manipulation foundation model real-world data generalizability

一个实用的视觉-语言-动作基础模型 / A Pragmatic VLA Foundation Model

1️⃣ 一句话总结

这篇论文提出了一个名为LingBot-VLA的实用机器人基础模型，它利用大量真实世界数据训练，在多种机器人平台上都能出色地完成不同任务，并且训练效率高、代码开源，旨在推动机器人学习领域的实际应用和发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16207

arXiv 提交日期: 2026-01-22

robotics computer vision multi-modal vision-language-action spatial reasoning training-free intervention robot manipulation affinity guidance

IVRA：通过基于提示的无训练引导改进机器人动作策略中的视觉-标记关系 / IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

1️⃣ 一句话总结

这篇论文提出了一种名为IVRA的轻量级、无需额外训练的方法，它通过巧妙利用视觉模型中已有的空间关联信息来增强机器人对视觉场景的几何理解，从而在多种机器人操作任务上稳定提升了动作策略的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.15197

arXiv 提交日期: 2026-01-21

robotics multi-modal model training vision-language-action bayesian decomposition latent action queries information collapse generalization

BayesianVLA：通过潜在动作查询对视觉-语言-动作模型进行贝叶斯分解 / BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

1️⃣ 一句话总结

这篇论文提出了一种名为BayesianVLA的新方法，通过引入贝叶斯分解和潜在动作查询，有效解决了现有机器人视觉-语言-动作模型在遇到新指令或多任务时容易忽略语言、只依赖视觉的‘信息坍缩’问题，从而显著提升了模型遵循指令和泛化到新场景的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14133

arXiv 提交日期: 2026-01-20

robotics multi-modal model training vision-language-action embodied ai catastrophic forgetting mixture-of-transformers robot manipulation

TwinBrainVLA：通过非对称混合变换器释放通用视觉语言模型在具身任务中的潜力 / TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

1️⃣ 一句话总结

这篇论文提出了一种名为TwinBrainVLA的新模型架构，它通过一个‘左脑’保持通用视觉理解能力，同时用一个可训练的‘右脑’专门学习机器人精细动作，从而解决了机器人控制任务中模型既要懂世界又要会动手的冲突，在保持高水平语义理解的同时实现了更精确的操控。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.12993

arXiv 提交日期: 2026-01-19

robotics multi-modal model training vision-language-action cross-embodiment generalization human-centric learning mixture-of-transformers robotic control

Being-H0.5：面向跨形态泛化的人本机器人学习规模化模型 / Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

1️⃣ 一句话总结

这篇论文提出了一个名为Being-H0.5的通用机器人基础模型，它通过将人类操作数据作为‘通用语言’来训练，使不同形态和能力的机器人能够相互学习技能，从而在多种真实和模拟机器人平台上实现了卓越的跨平台适应与任务执行能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.14577

1️⃣ 一句话总结

arXiv ID: 2602.11598

1️⃣ 一句话总结

arXiv ID: 2602.11832

1️⃣ 一句话总结

arXiv ID: 2602.03310

1️⃣ 一句话总结

arXiv ID: 2602.02212

1️⃣ 一句话总结

arXiv ID: 2601.18692

1️⃣ 一句话总结

arXiv ID: 2601.16207

1️⃣ 一句话总结

arXiv ID: 2601.15197

1️⃣ 一句话总结

arXiv ID: 2601.14133

1️⃣ 一句话总结

arXiv ID: 2601.12993

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.14577 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11598 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11832 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03310 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02212 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18692 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16207 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.15197 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14133 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.12993 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.14577

arXiv ID: 2602.11598

arXiv ID: 2602.11832

arXiv ID: 2602.03310

arXiv ID: 2602.02212

arXiv ID: 2601.18692

arXiv ID: 2601.16207

arXiv ID: 2601.15197

arXiv ID: 2601.14133

arXiv ID: 2601.12993