📄 论文总结
WebExplorer:通过探索与演化训练长视野网络智能体 / WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents
1️⃣ 一句话总结
本研究提出了一种通过模型探索和查询演化生成高质量训练数据的方法,成功训练出能进行多步骤复杂网络导航的8B参数智能体,在多项信息搜索任务中超越了更大规模的模型。
请先 登录 后再提交论文
WebExplorer:通过探索与演化训练长视野网络智能体 / WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents
本研究提出了一种通过模型探索和查询演化生成高质量训练数据的方法,成功训练出能进行多步骤复杂网络导航的8B参数智能体,在多项信息搜索任务中超越了更大规模的模型。
扩展多轮离线强化学习与多智能体树搜索用于大型语言模型步骤证明器 / Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers
这篇论文提出了一个名为BFS-Prover-V2的系统,通过结合创新的多轮离线强化学习训练方法和多智能体分层搜索架构,显著提升了大型语言模型在自动定理证明中的性能,并在数学证明基准测试中取得了领先成果。
迈向大语言模型后训练的统一视角 / Towards a Unified View of Large Language Model Post-Training
这篇论文提出了一个统一的理论框架,将大语言模型后训练的两种主流方法(基于人类示范的监督学习和基于模型生成数据的强化学习)视为同一优化过程的不同实例,并在此基础上开发了一种能动态选择训练信号的混合后训练算法,在多个数学推理基准测试中取得了优于现有方法的性能。
UI-TARS-2技术报告:通过多轮强化学习推进图形用户界面智能体 / UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning
这篇论文提出了UI-TARS-2智能体模型,通过数据飞轮和多轮强化学习等技术,显著提升了图形界面操作的性能,在多项测试中超越现有模型并接近人类水平。
面向大语言模型的智能体强化学习研究全景:一项综述 / The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
这篇综述系统梳理了将大语言模型从被动文本生成器转变为能在复杂环境中自主决策的智能体的强化学习方法,提出了基于核心能力和应用领域的双重分类体系,并整合了相关开源资源以推动未来研究。
Loong:通过验证器大规模合成长链思维 / Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers
这篇论文提出了一个名为Loong的开源框架,通过自动验证的合成数据生成和强化学习,帮助大语言模型在数学、化学等多种复杂推理领域提升其长链思维推理能力。
联合增强语言模型生成内容的多样性与质量 / Jointly Reinforcing Diversity and Quality in Language Model Generations
这篇论文提出了一个名为DARLING的强化学习框架,通过同时优化回答质量和语义多样性,解决了大语言模型在训练后常常牺牲多样性来提升准确性的问题,从而在创意写作和数学解题等任务中生成既优质又新颖的内容。
基于监督学习框架的隐式行动者评论家耦合强化学习可验证奖励方法 / Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR
这篇论文提出了一种名为PACS的新方法,通过将强化学习中的可验证奖励问题转化为监督学习任务,巧妙地结合了行动者和评论家的角色,从而在数学推理等任务上实现了更稳定高效的训练和更优的性能表现。
SimpleTIR:面向多轮工具集成推理的端到端强化学习 / SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
这篇论文提出了一种名为SimpleTIR的即插即用算法,通过过滤掉无效的推理步骤来稳定大语言模型在多轮工具调用中的强化学习训练,从而显著提升了复杂数学推理任务的性能并促进了多样化推理模式的出现。
Baichuan-M2:通过大规模验证系统扩展医疗能力 / Baichuan-M2: Scaling Medical Capability with Large Verifier System
这篇论文提出了一个动态验证框架,通过模拟真实医疗环境和多维评估指标训练出医疗增强推理模型Baichuan-M2,在性能上超越了多数开源和闭源模型,显著提升了大型语言模型在实际临床决策中的应用效果。