arXiv ID:
2512.08405
从音频世界模型中学习机器人操作 / Learning Robot Manipulation from Audio World Models
1️⃣ 一句话总结
这篇论文提出了一种能预测未来音频的生成模型,帮助机器人通过聆听和理解声音的节奏与物理特性,更好地完成需要听觉判断的复杂操作任务。
从音频世界模型中学习机器人操作 / Learning Robot Manipulation from Audio World Models
这篇论文提出了一种能预测未来音频的生成模型,帮助机器人通过聆听和理解声音的节奏与物理特性,更好地完成需要听觉判断的复杂操作任务。
VLSA:具备即插即用安全约束层的视觉-语言-动作模型 / VLSA: Vision-Language-Action Models with Plug-and-Play Safety Constraint Layer
这篇论文提出了一种名为AEGIS的新型机器人控制架构,它通过一个可即插即用的安全约束层,让现有的视觉语言动作模型在执行复杂任务指令时,能自动且理论可证地避免碰撞,从而在保持任务执行能力的同时大幅提升操作安全性。
慢思考,快行动:一种用于泛化视觉语言导航的双系统基础模型 / Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation
这篇论文提出了一个名为DualVLN的双系统模型,它通过一个慢速思考的全局规划器来设定中期目标,再驱动一个快速行动的本地控制器来生成平滑轨迹,从而在复杂动态环境中实现了更鲁棒、更高效的视觉语言导航。
视觉-语言-动作模型的任务自适应:2025年BEHAVIOR挑战赛冠军解决方案 / Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge
这篇论文介绍了一种在复杂家庭任务模拟挑战赛中夺冠的智能体策略,它通过引入相关噪声生成平滑动作、使用可学习注意力机制解决任务歧义,并优化了训练与推理过程,从而在50项多样化任务中取得了优异表现。
VideoVLA:视频生成模型可作为通用机器人操作器 / VideoVLA: Video Generators Can Be Generalizable Robot Manipulators
这篇论文提出了VideoVLA方法,通过将大型视频生成模型改造为机器人操作器,使其能根据语言指令和当前图像,同时预测未来的动作序列和视觉结果,从而显著提升了机器人在新任务、新物体和新环境中的泛化能力。
MIND-V:基于强化学习物理对齐的长视野机器人操作分层视频生成 / MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment
这篇论文提出了一个名为MIND-V的分层视频生成框架,它通过结合高层任务规划、行为语义转换和条件视频渲染,并引入基于强化学习的物理对齐优化,来生成物理上合理且逻辑连贯的长序列机器人操作视频,以解决机器人模仿学习中高质量长视野数据稀缺的问题。
DragMesh:让交互式3D生成变得简单 / DragMesh: Interactive 3D Generation Made Easy
这篇论文提出了一个名为DragMesh的实时交互式3D物体运动生成框架,它通过将关节参数推理与运动生成解耦,并利用创新的神经网络结构,实现了既能快速响应又能严格遵守物理运动规律的逼真3D物体操控。
人机交互中的具身指代表达理解 / Embodied Referring Expression Comprehension in Human-Robot Interaction
这篇论文为了解决机器人理解人类在真实环境中结合语言和手势的指令的难题,创建了一个包含室内外多视角互动的大规模数据集Refer360,并提出了一个名为MuRes的多模态引导残差模块,能有效提升现有模型对这类具身指令的理解能力。
能够自知其不知的世界模型:具有校准不确定性的可控视频生成 / World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty
这篇论文提出了一种名为C3的新方法,它能让可控视频生成模型在合成视频时,不仅能预测未来画面,还能准确评估并可视化自己对每个画面区域预测结果的不确定程度,从而有效识别和定位可能出现的‘幻觉’或错误。
X-Humanoid:将人类视频机器人化以大规模生成人形机器人视频 / X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale
这篇论文提出了一种名为X-Humanoid的新方法,它能够将大量普通的人类视频自动转换成逼真的人形机器人动作视频,从而为训练更智能的机器人AI模型提供了大规模、高质量的数据来源。
请先 登录 后再提交论文