arXiv最新AI论文速览速学

🔍

robotics ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System 05-02

arXiv ID: 2603.22280

arXiv 提交日期: 2026-03-23

multi-modal robotics agents vision-language-action chain of thought parallel reasoning robotic manipulation spatial perception

DualCoT-VLA：通过并行推理实现视觉-语言-动作模型的视觉语言思维链 / DualCoT-VLA: Visual-Linguistic Chain of Thought via Parallel Reasoning for Vision-Language-Action Models

1️⃣ 一句话总结

这篇论文提出了一种名为DualCoT-VLA的新方法，它通过并行的视觉和语言思维链，让机器人模型能够同时进行精细的空间感知和高级任务规划，从而更快速、更准确地完成复杂的多步骤操作任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.21853

arXiv 提交日期: 2026-03-23

robotics model training systems sim-to-real humanoid locomotion robust control domain randomization torque perturbation

通过关节扭矩空间扰动注入实现人形机器人步态策略的仿真到现实迁移 / Sim-to-Real of Humanoid Locomotion Policies via Joint Torque Space Perturbation Injection

1️⃣ 一句话总结

这篇论文提出了一种新的仿真训练方法，通过在机器人关节扭矩中注入灵活的、状态相关的扰动来模拟复杂的现实不确定性，从而让人形机器人的步态控制策略在未经额外训练的情况下，就能更好地适应真实世界中的各种意外情况。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.20607

arXiv 提交日期: 2026-03-21

robotics reinforcement learning multi-modal vision-language-action models model-based rl world models sample efficiency robotic control

迈向实用的基于世界模型的视觉-语言-动作模型强化学习 / Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models

1️⃣ 一句话总结

这篇论文提出了一个名为VLA-MBPO的实用框架，通过利用统一多模态模型进行高效的世界建模、增强多视图一致性以及减少误差累积，显著提升了视觉-语言-动作机器人在强化学习训练中的性能和样本效率，同时避免了真实世界交互的高成本与安全风险。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.19199

arXiv 提交日期: 2026-03-19

robotics model training agents vision-language-action real-time execution action sampling reaction latency trajectory generation

FASTER：重新思考实时流式视觉语言动作模型 / FASTER: Rethinking Real-Time Flow VLAs

1️⃣ 一句话总结

这篇论文提出了一种名为FASTER的新方法，通过优化动作生成的时间安排，让机器人视觉语言模型能像人类一样对环境变化做出快速反应，显著降低了反应延迟，从而在动态任务中实现前所未有的实时响应能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.19076

arXiv 提交日期: 2026-03-19

robotics computer vision systems simultaneous localization and mapping dynamic slam bundle adjustment real-time tracking 3d reconstruction

DROID-SLAM在复杂真实环境中的应用 / DROID-SLAM in the Wild

1️⃣ 一句话总结

这篇论文提出了一种能够在动态、杂乱的真实环境中实时运行的视觉定位与建图系统，它通过分析多视角图像特征的不一致性来估计像素级不确定性，从而在物体移动或场景混乱时也能实现稳定跟踪和三维重建。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.18084

arXiv 提交日期: 2026-03-18

reinforcement learning robotics model evaluation locomotion control policy interpretability phase structure explainable ai deep reinforcement learning

揭示运动策略中的潜在相位结构与分支逻辑：以HalfCheetah为例的研究 / Uncovering Latent Phase Structures and Branching Logic in Locomotion Policies: A Case Study on HalfCheetah

1️⃣ 一句话总结

这篇论文通过分析一个控制机器人行走的AI策略，发现这个看似‘黑箱’的神经网络实际上自己学会了像人类走路时‘站立’和‘摆动’这样有逻辑的阶段性动作模式，并且能根据不同阶段做出不同的决策，从而让AI的决策过程变得更容易理解。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17573

arXiv 提交日期: 2026-03-18

robotics multi-modal model training speculative decoding vision-language-action robot control inference acceleration kinematic awareness

HeiSD：具有运动学感知的具身视觉-语言-动作模型的混合推测解码 / HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness

1️⃣ 一句话总结

这篇论文提出了一种名为HeiSD的混合推测解码框架，通过分析机器人轨迹模式，将两种推测解码方法智能结合并优化，从而在保证任务成功率的同时，显著提升了机器人控制模型的推理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17993

arXiv 提交日期: 2026-03-18

robotics computer vision multi-modal trajectory synthesis 6-dof manipulation 3d scene understanding multimodal transformer object manipulation

GMT：面向三维场景中6自由度物体轨迹合成的目标条件多模态变换器 / GMT: Goal-Conditioned Multimodal Transformer for 6-DOF Object Trajectory Synthesis in 3D Scenes

1️⃣ 一句话总结

这篇论文提出了一个名为GMT的多模态变换器模型，它能够根据目标位置和三维场景信息，为机器人合成出在复杂环境中既真实又精确的物体抓取和移动轨迹。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17712

arXiv 提交日期: 2026-03-18

robotics agents computer vision zero-shot navigation exploration strategy multi-floor environments adaptive planning embodied ai

AERR-Nav：用于零样本目标导航的自适应探索-恢复-回忆策略 / AERR-Nav: Adaptive Exploration-Recovery-Reminiscing Strategy for Zero-Shot Object Navigation

1️⃣ 一句话总结

这篇论文提出了一种名为AERR-Nav的新方法，通过让机器人在探索、恢复和回忆三种状态间智能切换，并采用快慢思考模式，有效解决了机器人在未知多层环境中寻找从未见过物体时容易迷路或卡住的问题，从而实现了更优的导航性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17240

arXiv 提交日期: 2026-03-18

robotics model training multi-modal world-action model robot policy video generation action prediction efficient inference

GigaWorld-Policy：一种高效、以动作为中心的世界-动作模型 / GigaWorld-Policy: An Efficient Action-Centered World--Action Model

1️⃣ 一句话总结

这篇论文提出了一种名为GigaWorld-Policy的新型机器人策略学习模型，它通过将动作预测与视频生成解耦，在训练时利用视频监督提升动作的物理合理性，而在实际部署时只需快速预测动作，从而实现了比现有方法快9倍的速度和更高的任务成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.22280

1️⃣ 一句话总结

arXiv ID: 2603.21853

1️⃣ 一句话总结

arXiv ID: 2603.20607

1️⃣ 一句话总结

arXiv ID: 2603.19199

1️⃣ 一句话总结

arXiv ID: 2603.19076

1️⃣ 一句话总结

arXiv ID: 2603.18084

1️⃣ 一句话总结

arXiv ID: 2603.17573

1️⃣ 一句话总结

arXiv ID: 2603.17993

1️⃣ 一句话总结

arXiv ID: 2603.17712

1️⃣ 一句话总结

arXiv ID: 2603.17240

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.22280 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.21853 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.20607 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.19199 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.19076 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.18084 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17573 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17993 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17712 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17240 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.22280

arXiv ID: 2603.21853

arXiv ID: 2603.20607

arXiv ID: 2603.19199

arXiv ID: 2603.19076

arXiv ID: 2603.18084

arXiv ID: 2603.17573

arXiv ID: 2603.17993

arXiv ID: 2603.17712

arXiv ID: 2603.17240