arXiv最新AI论文速览速学

🔍

标签: #robotics ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System 05-02

arXiv ID: 2511.01914

arXiv 提交日期: 2025-11-01

robotics multi-modal model training vision-language-action manipulation latent actions action representation robot control

iFlyBot-VLA 技术报告 / iFlyBot-VLA Technical Report

1️⃣ 一句话总结

这篇论文提出了一个名为iFlyBot-VLA的新型视觉-语言-动作大模型，它通过结合隐式高层意图和显式低层动态的双重动作表示框架，有效提升了机器人在复杂操作任务中的感知、推理和执行能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.27545

arXiv 提交日期: 2025-10-31

robotics model training agents energy-based models policy learning robust inference physical reasoning vision-language-action

EBT-策略：能量模型解锁涌现的物理推理能力 / EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

1️⃣ 一句话总结

这篇论文提出了一种名为EBT-Policy的新型能量模型架构，它在机器人任务中比当前主流的扩散策略表现更好、计算效率更高，并且展现出无需额外训练就能从错误中自主恢复等智能行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.26909

arXiv 提交日期: 2025-10-30

robotics computer vision natural language processing embodied navigation vision-language models benchmark evaluation trajectory prediction spatial grounding

NaviTrace：评估视觉语言模型的具身导航能力 / NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为NaviTrace的新型评测基准，通过模拟不同机器人形态在1000多个场景中的导航轨迹，系统评估了八种先进视觉语言模型的导航能力，发现它们在空间定位和目标识别方面仍显著落后于人类水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.26236

arXiv 提交日期: 2025-10-30

robotics data model training humanoid locomotion motion imitation physics-constrained retargeting dataset motion capture

PHUMA：基于物理的人形机器人运动数据集 / PHUMA: Physically-Grounded Humanoid Locomotion Dataset

1️⃣ 一句话总结

这篇论文提出了一个名为PHUMA的大规模人形机器人运动数据集，通过物理约束优化解决了现有数据中常见的漂浮、穿透和脚滑等问题，从而在模仿人类动作时表现更稳定、多样且优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.00062

arXiv 提交日期: 2025-10-28

video generation multi-modal robotics world simulation video foundation models physical ai sim2real embodied intelligence

基于视频基础模型的物理人工智能世界仿真 / World Simulation with Video Foundation Models for Physical AI

1️⃣ 一句话总结

这篇论文提出了新一代世界仿真模型Cosmos-Predict2.5，它通过统一文本、图像和视频生成能力，结合强化学习训练，显著提升了视频质量和指令对齐，为机器人和自主系统提供了更可靠的仿真工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.21447

arXiv 提交日期: 2025-10-24

robotics computer vision model training world models deformable objects physics simulation graph neural networks digital twin

PhysWorld：通过物理感知演示合成，从真实视频到可变形物体的世界模型 / PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis

1️⃣ 一句话总结

这篇论文提出了PhysWorld框架，它利用模拟器生成大量物理上合理的演示数据来训练高效的世界模型，从而能够快速准确地预测各种可变形物体的未来状态，并且推理速度比现有先进方法快47倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.19944

arXiv 提交日期: 2025-10-22

computer vision robotics systems 3d generation physics simulation asset creation embodied ai scene generation

Seed3D 1.0：从图像到高保真仿真就绪的3D资产 / Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets

1️⃣ 一句话总结

这篇论文提出了一个名为Seed3D 1.0的基础模型，能够从单张图片直接生成具有精确几何形状、对齐纹理和真实物理材质的3D资产，这些资产无需复杂配置即可集成到物理引擎中，解决了仿真环境创建中内容多样性与物理准确性难以兼顾的规模化难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.17950

arXiv 提交日期: 2025-10-20

robotics systems model evaluation embodied ai real-robot evaluation benchmarking vla models robotic control

机器人挑战：大规模实机评估具身策略 / RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

1️⃣ 一句话总结

这篇论文介绍了一个名为RoboChallenge的在线系统，旨在通过大规模、可重复的实机测试来高效评估机器人控制算法，并利用其初始基准Table30对当前先进的视觉语言动作模型进行了性能调查。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.15510

arXiv 提交日期: 2025-10-17

robotics model training computer vision diffusion models visual representations imitation learning task adaptation robotic control

探索扩散模型在机器人控制中的应用条件 / Exploring Conditions for Diffusion models in Robotic Control

1️⃣ 一句话总结

这项研究提出了一种名为ORCA的新方法，通过设计可学习的任务提示和视觉提示，让预训练的文本到图像扩散模型能够适应机器人控制任务，而无需重新训练模型，从而在多个机器人控制基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14902

arXiv 提交日期: 2025-10-16

robotics multi-modal agents vision-language-action agentic framework generalization object manipulation simulation benchmark

VLA^2：通过智能体框架增强视觉-语言-动作模型对未知概念的操作能力 / VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation

1️⃣ 一句话总结

这项研究提出了一种名为VLA^2的新型智能体框架，通过整合网络检索和物体检测等外部模块，有效提升了视觉-语言-动作模型对训练数据中未见过物体的操作成功率，在最具挑战性的测试场景中比基线模型提高了44.2%的绩效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.01914

1️⃣ 一句话总结

arXiv ID: 2510.27545

1️⃣ 一句话总结

arXiv ID: 2510.26909

1️⃣ 一句话总结

arXiv ID: 2510.26236

1️⃣ 一句话总结

arXiv ID: 2511.00062

1️⃣ 一句话总结

arXiv ID: 2510.21447

1️⃣ 一句话总结

arXiv ID: 2510.19944

1️⃣ 一句话总结

arXiv ID: 2510.17950

1️⃣ 一句话总结

arXiv ID: 2510.15510

1️⃣ 一句话总结

arXiv ID: 2510.14902

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.01914 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.27545 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.26909 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.26236 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.00062 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.21447 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.19944 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.17950 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.15510 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14902 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.01914

arXiv ID: 2510.27545

arXiv ID: 2510.26909

arXiv ID: 2510.26236

arXiv ID: 2511.00062

arXiv ID: 2510.21447

arXiv ID: 2510.19944

arXiv ID: 2510.17950

arXiv ID: 2510.15510

arXiv ID: 2510.14902