arXiv ID:
2512.24210
GR-Dexter技术报告 / GR-Dexter Technical Report
1️⃣ 一句话总结
这篇论文提出了一个名为GR-Dexter的软硬件一体化框架,它通过设计灵巧的双手机器人、便捷的遥操作系统以及创新的数据训练方法,成功实现了让机器人能像人一样根据语言指令完成各种复杂的双手操作任务。
GR-Dexter技术报告 / GR-Dexter Technical Report
这篇论文提出了一个名为GR-Dexter的软硬件一体化框架,它通过设计灵巧的双手机器人、便捷的遥操作系统以及创新的数据训练方法,成功实现了让机器人能像人一样根据语言指令完成各种复杂的双手操作任务。
从世界模型到通用目标条件策略:Act2Goal / Act2Goal: From World Model To General Goal-conditioned Policy
这篇论文提出了一个名为Act2Goal的机器人操控新方法,它通过一个能想象任务中间步骤的视觉世界模型,结合多尺度时间控制策略,让机器人仅凭观察目标画面就能自主、高效地完成复杂的多步骤操作任务,并且能快速适应新环境。
Robo-Dopamine:用于高精度机器人操作的通用工序奖励建模 / Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation
本文提出了一种名为Dopamine-Reward的新方法,通过构建一个能理解操作步骤细节、融合多视角信息的通用奖励模型,并结合一个理论上更可靠的奖励塑造框架,解决了机器人强化学习中奖励函数设计难、训练效率低的问题,使机器人仅需少量真实交互就能快速学会复杂精细的操作任务。
SurgWorld:通过世界建模从视频中学习手术机器人策略 / SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling
这篇论文提出了一种名为SurgWorld的新方法,通过构建一个能生成逼真手术视频的虚拟世界模型,并从中推断出机器人动作数据,从而利用大量无标签的手术视频来训练手术机器人,有效解决了真实动作数据稀缺的问题,并显著提升了机器人的操作性能。
RGS-SLAM:基于一次性密集初始化的鲁棒高斯溅射SLAM框架 / RGS-SLAM: Robust Gaussian Splatting SLAM with One-Shot Dense Initialization
这篇论文提出了一种名为RGS-SLAM的新方法,它通过一次性利用多视角图像特征来预先构建一个高质量的3D场景模型,从而让机器人在复杂环境中能更快、更稳定地完成实时定位与地图构建,并显著提升了最终场景渲染的逼真度。
Dream-VL 与 Dream-VLA:基于扩散语言模型骨干的开放视觉-语言与视觉-语言-动作模型 / Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone
这篇论文提出了基于扩散语言模型的新型视觉-语言模型Dream-VL和视觉-语言-动作模型Dream-VLA,它们在多项基准测试中表现优异,尤其在视觉规划和机器人控制任务上展现出比传统自回归模型更强的能力,例如能更快地学习动作序列并实现更高的任务成功率。
Real2Edit2Real:通过3D控制界面生成机器人演示数据 / Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface
这篇论文提出了一种名为Real2Edit2Real的新方法,它通过一个3D编辑界面,利用少量真实机器人演示视频,自动生成大量新的、多样化的训练数据,从而让机器人学习新技能时所需的数据量减少10到50倍,极大地提高了数据效率。
LoGoPlanner:基于定位与度量感知视觉几何的导航策略 / LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry
这篇论文提出了一种名为LoGoPlanner的新型端到端导航框架,它通过整合度量感知的视觉几何理解和历史观测信息,让机器人在没有独立定位模块的情况下,也能在复杂未知环境中实现更精准、更鲁棒的自主导航和避障。
PhysBrain:以人类第一视角数据为桥梁,连接视觉语言模型与物理智能 / PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence
这篇论文提出了一种新方法,通过大规模处理人类第一视角视频,将其转化为机器人能学习的结构化训练数据,从而有效提升了机器人对物理世界的理解和任务规划能力。
MomaGraph:用于具身任务规划的、具备状态感知能力的统一场景图与视觉语言模型 / MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
这篇论文提出了一个名为MomaGraph的统一场景表示方法,它结合了空间、功能和物体状态信息,并配套发布了首个大规模任务驱动场景图数据集与评估基准,同时训练了一个能根据场景图进行零样本任务规划的视觉语言模型,显著提升了家庭环境中移动机械臂的任务规划性能。
请先 登录 后再提交论文