arXiv ID:
2603.08706
自主批判性训练 / Agentic Critical Training
1️⃣ 一句话总结
这篇论文提出了一种名为‘自主批判性训练’的新方法,它通过让大型语言模型学习自主判断不同行动方案的优劣,而不是简单模仿专家行为,从而显著提升了AI代理的决策能力和泛化性能。
自主批判性训练 / Agentic Critical Training
这篇论文提出了一种名为‘自主批判性训练’的新方法,它通过让大型语言模型学习自主判断不同行动方案的优劣,而不是简单模仿专家行为,从而显著提升了AI代理的决策能力和泛化性能。
RoboPocket:用你的手机即时改进机器人策略 / RoboPocket: Improve Robot Policies Instantly with Your Phone
这篇论文提出了一个名为RoboPocket的创新系统,它利用普通智能手机和增强现实技术,让操作员无需物理机器人就能直观地看到机器人策略的预测轨迹,从而能高效地针对策略弱点收集数据并进行即时在线微调,将数据收集效率提升了一倍。
面向杂乱环境中序列化操作的物体中心空间推理学习 / Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments
这篇论文提出了一个名为Unveiler的机器人操作框架,它将复杂的空间推理与具体动作执行分离开来,通过一个轻量级的决策模块智能地识别并移除遮挡物,从而让机器人能更高效、更成功地从极度杂乱的环境中取出目标物体。
Tether:基于对应关系驱动轨迹扭曲的自主功能化交互学习 / Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping
这篇论文提出了一种名为Tether的新方法,它能让机器人像玩游戏一样自主探索和学习新任务:只需少量演示,机器人就能通过视觉关键点匹配来调整动作,并在现实环境中持续执行、评估和改进任务,从而自动生成大量高质量的训练数据来提升自身技能。
面向机器人集群的生成对抗模仿学习:从人类演示与训练策略中学习 / Generative adversarial imitation learning for robot swarms: Learning from human demonstrations and trained policies
这篇论文提出了一个基于生成对抗模仿学习的框架,让机器人集群能够通过观察人类演示或已有策略的演示来学习集体行为,并在仿真和真实机器人实验中成功复现了与演示性能相当、视觉上可识别的群体行为。
GraspLDP:通过潜在扩散实现可泛化的抓取策略 / GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion
这篇论文提出了一种结合抓取先验知识的潜在扩散策略,通过引导机器人动作生成和融入视觉重建目标,显著提升了模仿学习抓取策略的精确度和对不同物体、不同场景的泛化能力。
用于机器人模仿动作生成的主-细解耦方法 / Primary-Fine Decoupling for Action Generation in Robotic Imitation
这篇论文提出了一种名为PF-DAG的两阶段新方法,它通过先将机器人动作分解为粗略模式和精细变化来生成动作,从而在模仿学习中更稳定、更准确地复现复杂的多模态操作任务,并在多个基准测试和真实任务中表现出色。
内心言语作为行为引导:用于人机协调的多样化行为的可操控模仿 / Inner Speech as Behavior Guides: Steerable Imitation of Diverse Behaviors for Human-AI coordination
这篇论文提出了一种名为MIMIC的新方法,它模仿人类‘内心独白’指导行动的方式,让AI不仅能更逼真地模仿人类多样化的行为,还能在执行任务时通过语言指令进行精细的行为操控,从而更好地与人协作。
超越模仿:迈向具有终身适应能力的模仿学习 / Beyond Mimicry: Toward Lifelong Adaptability in Imitation Learning
这篇论文认为当前模仿学习系统只是擅长死记硬背的‘回放机器’,无法适应环境变化,因此提出一个将成功标准从‘完美复现’转向‘组合式适应能力’的研究新方向,旨在让智能体学会基本行为单元后,无需重新训练就能在新环境中灵活重组它们,从而具备在开放世界中长期运作的核心能力。
MAVRL:通过摊销变分推断从多种反馈类型中学习奖励函数 / MAVRL: Learning Reward Functions from Multiple Feedback Types with Amortized Variational Inference
这篇论文提出了一种名为MAVRL的新方法,能够像侦探综合多种线索一样,将人类提供的演示、比较、评分和停止等不同形式的反馈统一起来,自动学习出更准确、更鲁棒的奖励函数,从而帮助AI智能体更好地理解任务并做出决策。
请先 登录 后再提交论文