GR-RL:面向长周期灵巧与精确机器人操作 / GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
1️⃣ 一句话总结
这篇论文提出了一个名为GR-RL的机器人学习框架,它通过多阶段训练流程,将通用的视觉-语言-动作策略升级为能完成复杂长周期灵巧操作(如自主系鞋带)的专家系统,其核心是利用强化学习来筛选、增强并优化原本不完美的人类演示数据。
请先 登录 后再提交论文
GR-RL:面向长周期灵巧与精确机器人操作 / GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
这篇论文提出了一个名为GR-RL的机器人学习框架,它通过多阶段训练流程,将通用的视觉-语言-动作策略升级为能完成复杂长周期灵巧操作(如自主系鞋带)的专家系统,其核心是利用强化学习来筛选、增强并优化原本不完美的人类演示数据。
ToolScope:一种用于视觉引导和长视野工具使用的智能体框架 / ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use
这篇论文提出了一个名为ToolScope的智能框架,它通过结合全局规划和局部视觉感知,有效提升了多模态大模型在复杂视觉问答任务中使用外部工具的能力,并在多个基准测试中显著提高了性能。
驾驭不确定性:面向长视野LLM智能体的熵调制策略梯度 / Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
本文提出了一种名为EMPG的新方法,通过根据智能体每一步的不确定性和最终任务结果调整学习信号,解决了大型语言模型在执行多步骤任务时因奖励稀疏和策略梯度与熵耦合导致的学习效率低下问题,从而显著提升了智能体在复杂任务中的表现。
WebExplorer:通过探索与演化训练长视野网络智能体 / WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents
本研究提出了一种通过模型探索和查询演化生成高质量训练数据的方法,成功训练出能进行多步骤复杂网络导航的8B参数智能体,在多项信息搜索任务中超越了更大规模的模型。