📄 论文总结
Seed3D 1.0:从图像到高保真仿真就绪的3D资产 / Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets
1️⃣ 一句话总结
这篇论文提出了一个名为Seed3D 1.0的基础模型,能够从单张图片直接生成具有精确几何形状、对齐纹理和真实物理材质的3D资产,这些资产无需复杂配置即可集成到物理引擎中,解决了仿真环境创建中内容多样性与物理准确性难以兼顾的规模化难题。
请先 登录 后再提交论文
Seed3D 1.0:从图像到高保真仿真就绪的3D资产 / Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets
这篇论文提出了一个名为Seed3D 1.0的基础模型,能够从单张图片直接生成具有精确几何形状、对齐纹理和真实物理材质的3D资产,这些资产无需复杂配置即可集成到物理引擎中,解决了仿真环境创建中内容多样性与物理准确性难以兼顾的规模化难题。
机器人挑战:大规模实机评估具身策略 / RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies
这篇论文介绍了一个名为RoboChallenge的在线系统,旨在通过大规模、可重复的实机测试来高效评估机器人控制算法,并利用其初始基准Table30对当前先进的视觉语言动作模型进行了性能调查。
探索扩散模型在机器人控制中的应用条件 / Exploring Conditions for Diffusion models in Robotic Control
这项研究提出了一种名为ORCA的新方法,通过设计可学习的任务提示和视觉提示,让预训练的文本到图像扩散模型能够适应机器人控制任务,而无需重新训练模型,从而在多个机器人控制基准测试中取得了领先性能。
VLA^2:通过智能体框架增强视觉-语言-动作模型对未知概念的操作能力 / VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation
这项研究提出了一种名为VLA^2的新型智能体框架,通过整合网络检索和物体检测等外部模块,有效提升了视觉-语言-动作模型对训练数据中未见过物体的操作成功率,在最具挑战性的测试场景中比基线模型提高了44.2%的绩效。
专家无需垄断:面向视觉-语言-动作学习的动作专用专家混合模型 / Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning
这篇论文提出了一种名为AdaMoE的智能模型扩展方法,它通过让多个专家模块协作处理机器人任务,而不是单一专家独占,从而在提升性能的同时保持了计算效率,显著提高了机器人在模拟和真实环境中的操作能力。
VLA-0:零修改构建顶尖视觉语言动作模型 / VLA-0: Building State-of-the-Art VLAs with Zero Modification
这篇论文提出了一种名为VLA-0的简单方法,通过直接将机器人动作表示为文本,无需修改现有视觉语言模型,就在多个机器人操作基准测试中超越了更复杂的模型,证明了简洁设计的强大潜力。
Vlaser:具备协同具身推理能力的视觉-语言-动作模型 / Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning
这项研究提出了一个名为Vlaser的智能体基础模型,它通过整合高级推理与低级控制能力,有效解决了视觉语言模型推理与机器人动作策略学习之间的衔接问题,并在多个具身推理任务和机器人控制基准测试中取得了领先性能。
基于高斯泼溅的真实世界零样本机器人操作学习高保真模拟数据生成 / High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting
这篇论文提出了一种名为RoboSimGS的新方法,通过结合3D高斯泼溅和多模态大语言模型,将真实世界图像自动转换为高保真、可物理交互的模拟环境,从而让在模拟环境中训练的机器人策略能够直接成功应用于真实世界的各种操作任务,有效解决了模拟与现实之间的性能差距问题。
DexNDM:通过关节级神经动力学模型弥合灵巧手内旋转的现实差距 / DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model
这项研究提出了一种新方法,通过一个高效的关节级动力学模型和自主数据收集策略,成功解决了机器人灵巧手在真实世界中旋转各种复杂物体时,从模拟训练到实际应用的转换难题。
ARTDECO:基于结构化场景表示的实时高效高保真3D重建 / ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation
本文提出ARTDECO框架,通过结合前馈模型效率和SLAM可靠性,利用分层高斯表示实现实时高保真3D重建,在多个基准测试中达到接近离线优化的质量与交互级性能。