arXiv最新AI论文速览速学

📄

2512.01801

🤖 系统

12-02 15:17

robotics reinforcement learning agents

dexterous manipulation vision-language-action offline rl policy specialization long-horizon tasks

GR-RL：面向长周期灵巧与精确机器人操作 / GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

1️⃣ 一句话总结

这篇论文提出了一个名为GR-RL的机器人学习框架，它通过多阶段训练流程，将通用的视觉-语言-动作策略升级为能完成复杂长周期灵巧操作（如自主系鞋带）的专家系统，其核心是利用强化学习来筛选、增强并优化原本不完美的人类演示数据。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.27363

🤖 系统

11-30 17:47

agents multi-modal llm

tool usage visual question answering agentic framework multimodal reasoning long-horizon tasks

📄 论文总结

ToolScope：一种用于视觉引导和长视野工具使用的智能体框架 / ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use

1️⃣ 一句话总结

这篇论文提出了一个名为ToolScope的智能框架，它通过结合全局规划和局部视觉感知，有效提升了多模态大模型在复杂视觉问答任务中使用外部工具的能力，并在多个基准测试中显著提高了性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.09265

🤖 系统

11-30 17:30

llm agents reinforcement learning

policy gradients entropy modulation long-horizon tasks credit assignment uncertainty

📄 论文总结

驾驭不确定性：面向长视野LLM智能体的熵调制策略梯度 / Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

1️⃣ 一句话总结

本文提出了一种名为EMPG的新方法，通过根据智能体每一步的不确定性和最终任务结果调整学习信号，解决了大型语言模型在执行多步骤任务时因奖励稀疏和策略梯度与熵耦合导致的学习效率低下问题，从而显著提升了智能体在复杂任务中的表现。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.06501

🤖 系统

11-30 17:30

llm agents model training

web agents data generation reinforcement learning long-horizon tasks tool usage

📄 论文总结

WebExplorer：通过探索与演化训练长视野网络智能体 / WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

1️⃣ 一句话总结

本研究提出了一种通过模型探索和查询演化生成高质量训练数据的方法，成功训练出能进行多步骤复杂网络导航的8B参数智能体，在多项信息搜索任务中超越了更大规模的模型。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.01801

1️⃣ 一句话总结

2510.27363

📄 论文总结

1️⃣ 一句话总结

2509.09265

📄 论文总结

1️⃣ 一句话总结

2509.06501

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.01801 📝

1️⃣ 一句话总结

2510.27363 📝

📄 论文总结

1️⃣ 一句话总结

2509.09265 📝

📄 论文总结

1️⃣ 一句话总结

2509.06501 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2512.01801

2510.27363

2509.09265

2509.06501