arXiv ID:
2511.01914
iFlyBot-VLA 技术报告 / iFlyBot-VLA Technical Report
1️⃣ 一句话总结
这篇论文提出了一个名为iFlyBot-VLA的新型视觉-语言-动作大模型,它通过结合隐式高层意图和显式低层动态的双重动作表示框架,有效提升了机器人在复杂操作任务中的感知、推理和执行能力。
iFlyBot-VLA 技术报告 / iFlyBot-VLA Technical Report
这篇论文提出了一个名为iFlyBot-VLA的新型视觉-语言-动作大模型,它通过结合隐式高层意图和显式低层动态的双重动作表示框架,有效提升了机器人在复杂操作任务中的感知、推理和执行能力。
EBT-策略:能量模型解锁涌现的物理推理能力 / EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities
这篇论文提出了一种名为EBT-Policy的新型能量模型架构,它在机器人任务中比当前主流的扩散策略表现更好、计算效率更高,并且展现出无需额外训练就能从错误中自主恢复等智能行为。
NaviTrace:评估视觉语言模型的具身导航能力 / NaviTrace: Evaluating Embodied Navigation of Vision-Language Models
这篇论文提出了一个名为NaviTrace的新型评测基准,通过模拟不同机器人形态在1000多个场景中的导航轨迹,系统评估了八种先进视觉语言模型的导航能力,发现它们在空间定位和目标识别方面仍显著落后于人类水平。
PHUMA:基于物理的人形机器人运动数据集 / PHUMA: Physically-Grounded Humanoid Locomotion Dataset
这篇论文提出了一个名为PHUMA的大规模人形机器人运动数据集,通过物理约束优化解决了现有数据中常见的漂浮、穿透和脚滑等问题,从而在模仿人类动作时表现更稳定、多样且优于现有方法。
基于视频基础模型的物理人工智能世界仿真 / World Simulation with Video Foundation Models for Physical AI
这篇论文提出了新一代世界仿真模型Cosmos-Predict2.5,它通过统一文本、图像和视频生成能力,结合强化学习训练,显著提升了视频质量和指令对齐,为机器人和自主系统提供了更可靠的仿真工具。
PhysWorld:通过物理感知演示合成,从真实视频到可变形物体的世界模型 / PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis
这篇论文提出了PhysWorld框架,它利用模拟器生成大量物理上合理的演示数据来训练高效的世界模型,从而能够快速准确地预测各种可变形物体的未来状态,并且推理速度比现有先进方法快47倍。
Seed3D 1.0:从图像到高保真仿真就绪的3D资产 / Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets
这篇论文提出了一个名为Seed3D 1.0的基础模型,能够从单张图片直接生成具有精确几何形状、对齐纹理和真实物理材质的3D资产,这些资产无需复杂配置即可集成到物理引擎中,解决了仿真环境创建中内容多样性与物理准确性难以兼顾的规模化难题。
机器人挑战:大规模实机评估具身策略 / RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies
这篇论文介绍了一个名为RoboChallenge的在线系统,旨在通过大规模、可重复的实机测试来高效评估机器人控制算法,并利用其初始基准Table30对当前先进的视觉语言动作模型进行了性能调查。
探索扩散模型在机器人控制中的应用条件 / Exploring Conditions for Diffusion models in Robotic Control
这项研究提出了一种名为ORCA的新方法,通过设计可学习的任务提示和视觉提示,让预训练的文本到图像扩散模型能够适应机器人控制任务,而无需重新训练模型,从而在多个机器人控制基准测试中取得了领先性能。
VLA^2:通过智能体框架增强视觉-语言-动作模型对未知概念的操作能力 / VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation
这项研究提出了一种名为VLA^2的新型智能体框架,通过整合网络检索和物体检测等外部模块,有效提升了视觉-语言-动作模型对训练数据中未见过物体的操作成功率,在最具挑战性的测试场景中比基线模型提高了44.2%的绩效。
请先 登录 后再提交论文