📄 论文总结
UserRL:通过强化学习训练交互式用户中心智能体 / UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一个名为UserRL的框架,通过强化学习和模拟用户环境来训练能更好地与用户交互的AI助手,并发现奖励机制设计和用户模拟器的选择对提升交互效果至关重要。
请先 登录 后再提交论文
UserRL:通过强化学习训练交互式用户中心智能体 / UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
这篇论文提出了一个名为UserRL的框架,通过强化学习和模拟用户环境来训练能更好地与用户交互的AI助手,并发现奖励机制设计和用户模拟器的选择对提升交互效果至关重要。
用于微调行为克隆策略的残差离线策略强化学习 / Residual Off-Policy RL for Finetuning Behavior Cloning Policies
这项研究提出了一种结合行为克隆和强化学习优势的新方法,通过让智能体在预训练的行为策略基础上学习轻量级残差修正,仅需稀疏的奖励信号就能有效提升复杂机器人系统的操作性能,并首次在真实世界的类人机器人上成功实现了强化学习训练。
THOR:基于强化学习的工具集成分层优化方法用于数学推理 / THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning
这篇论文提出了一个名为THOR的新方法,通过结合强化学习和外部工具,解决了大型语言模型在数学推理中精度不足的问题,显著提升了模型在数值计算和符号运算等任务上的表现。
WebWeaver:通过动态大纲构建网络规模证据以支持开放式深度研究 / WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research
这篇论文提出了一个名为WebWeaver的双智能体框架,通过模拟人类研究过程,动态规划与证据收集相结合,有效解决了开放式深度研究中信息冗余、引用不准确和幻觉问题,从而生成结构清晰、可信赖的研究报告。
ReSum:通过上下文摘要解锁长范围搜索智能 / ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
这篇论文提出了一种名为ReSum的新方法,通过定期总结上下文来突破大型语言模型在处理复杂网络搜索任务时的记忆限制,从而显著提升了搜索智能体的性能和探索能力。
通过环境扩展迈向通用智能体智能 / Towards General Agentic Intelligence via Environment Scaling
这篇论文提出了一种通过自动生成多样化模拟环境来扩展训练场景的方法,并采用两阶段微调策略,显著提升了大型语言模型在实际应用中调用各种API功能的智能水平。
通过持续预训练扩展智能体能力 / Scaling Agents via Continual Pre-training
这篇论文提出了一种名为Agentic CPT的持续预训练方法,通过构建强大的智能体基础模型来解决现有方法在复杂任务中表现不佳的问题,并在多个基准测试中取得了领先性能。
WebResearcher:释放长视野智能体的无限推理能力 / WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents
这篇论文提出了一个名为WebResearcher的新型AI智能体框架,通过将深度研究建模为决策过程并生成高质量训练数据,有效解决了传统方法在长周期任务中的信息过载和噪声干扰问题,从而显著提升了智能体的工具使用能力和多任务并行推理性能。
WebSailor-V2:通过合成数据与可扩展强化学习弥合与专有智能体之间的差距 / WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning
这篇论文提出了一种名为WebSailor的训练方法,通过生成高不确定性任务和高效强化学习算法,使开源AI模型在复杂信息搜索任务中达到与专有系统相当的性能水平。
再看一眼,慢思考:增强视觉语言模型中的视觉反思能力 / Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
这篇论文提出了一种名为Reflection-V的新视觉推理模型,通过构建视觉中心推理数据和设计基于视觉注意力的强化学习奖励机制,有效增强了模型在推理过程中持续关注和利用视觉信息的能力,从而显著提升了多个视觉推理任务的性能。