动作分块中的混合视野策略 / Mixture of Horizons in Action Chunking
1️⃣ 一句话总结
这篇论文提出了一种名为‘混合视野’的新策略,通过让机器人同时学习长远的全局规划和精细的局部控制,解决了现有视觉-语言-动作模型在复杂任务中难以兼顾长期目标与短期精准度的核心矛盾,从而显著提升了机器人的操作性能和效率。
请先 登录 后再提交论文
动作分块中的混合视野策略 / Mixture of Horizons in Action Chunking
这篇论文提出了一种名为‘混合视野’的新策略,通过让机器人同时学习长远的全局规划和精细的局部控制,解决了现有视觉-语言-动作模型在复杂任务中难以兼顾长期目标与短期精准度的核心矛盾,从而显著提升了机器人的操作性能和效率。
VLA-4D:将四维感知融入视觉-语言-动作模型以实现时空连贯的机器人操作 / VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation
这项研究提出了一种新型视觉-语言-动作模型VLA-4D,通过引入时间维度与空间位置融合的四维感知机制,使机器人能够执行更流畅连贯的时空动作规划与操作。
专家无需垄断:面向视觉-语言-动作学习的动作专用专家混合模型 / Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning
这篇论文提出了一种名为AdaMoE的智能模型扩展方法,它通过让多个专家模块协作处理机器人任务,而不是单一专家独占,从而在提升性能的同时保持了计算效率,显著提高了机器人在模拟和真实环境中的操作能力。
基于高斯泼溅的真实世界零样本机器人操作学习高保真模拟数据生成 / High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting
这篇论文提出了一种名为RoboSimGS的新方法,通过结合3D高斯泼溅和多模态大语言模型,将真实世界图像自动转换为高保真、可物理交互的模拟环境,从而让在模拟环境中训练的机器人策略能够直接成功应用于真实世界的各种操作任务,有效解决了模拟与现实之间的性能差距问题。
R2RGEN:面向空间泛化操作的真实到真实三维数据生成 / R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation
本文提出了一种无需模拟器和渲染的R2RGEN框架,能够直接从少量真实演示中高效生成多样化的三维点云数据,显著提升机器人操作策略在复杂空间环境下的泛化能力。
SimpleVLA-RL:通过强化学习扩展视觉语言动作模型训练 / SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
这篇论文提出了一种名为SimpleVLA-RL的高效强化学习框架,通过减少对大规模人工操作数据的依赖并增强模型在复杂任务中的泛化能力,显著提升了视觉语言动作模型在机器人操作任务中的性能,甚至在某些真实场景中超越了传统的监督学习方法。
CogVLA:通过指令驱动路由与稀疏化实现认知对齐的视觉-语言-动作模型 / CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
这篇论文提出了一种名为CogVLA的高效智能模型,它通过模仿人类认知过程,使用指令来动态筛选视觉和语言信息,从而在机器人任务中实现了更高的准确性和更快的运行速度,同时大幅降低了计算成本。