🤖 系统
10-11 12:05
📄 论文总结
免训练组相对策略优化方法 / Training-Free Group Relative Policy Optimization
1️⃣ 一句话总结
提出了一种无需参数更新的强化学习方法,通过将经验知识作为token先验来增强大语言模型的代理性能,在少量真实数据上进行多轮学习,显著降低了数据需求和计算成本。
2️⃣ 论文创新点
1. 免训练GRPO方法
- 创新点:将传统的组相对策略优化从参数空间转移到上下文空间,通过维护外部经验知识库而非更新模型参数来实现策略优化
- 区别/改进:避免了传统方法需要监督微调和强化学习阶段的参数更新,解决了数据稀缺和过拟合问题
- 意义:提供了一种成本效益高的替代方案,显著减少了训练数据需求和计算成本
2. 语义群体优势
- 创新点:用自然语言形式的经验替代传统GRPO中的数值优势,编码导致高奖励行为的关键经验知识
- 区别/改进:将数值优势转化为可解释的自然语言描述,便于理解和集成到经验库中
- 意义:增强了优化过程的透明度和可解释性,使模型能够基于语义经验进行自我改进
3. 经验知识库动态更新
- 创新点:基于当前批次的语义优势,通过LLM生成操作指令来动态更新经验知识库
- 区别/改进:实现了经验库的在线学习和精炼,使其能够适应新知识并淘汰低质量经验
- 意义:确保了经验库的时效性和质量,从而持续优化条件策略的输出分布
3️⃣ 主要结果与价值
结果亮点
- 在数学推理任务上,仅用100个训练样本和零梯度更新就能达到甚至超越需要数千样本和上万美元成本的传统RL方法
- 在WebWalkerQA网页搜索任务中,将DeepSeek-V3.1-Terminus模型的pass@1得分从63.2%提升到67.8%
- 跨域分析显示该方法在数学推理和网络搜索领域均达到最优性能,避免了参数优化方法的领域专业化权衡问题
实际价值
- 计算成本从传统RL训练的10,000美元大幅降低到仅18美元,成本降低超过500倍
- 仅需3个训练步骤和少量查询样本即可实现性能提升,适用于数据有限、预算受限或推理需求波动的场景
- 方法具有跨任务通用性,可在数学推理和网页搜索等不同领域同时实现最优性能
4️⃣ 术语表
- Training-Free GRPO:无需训练的组相对策略优化方法,通过维护和更新外部经验知识库,在推理时利用组相对语义优势来引导模型产生更高奖励的输出
- GRPO:Group Relative Policy Optimization,组相对策略优化
- 语义优势:语义优势,用于比较不同轨迹并在每个组中区分优劣
- 经验知识库:一个外部存储的自然语言经验集合,在Training-Free GRPO中用于条件化策略,并通过添加、删除、修改等操作进行动态更新
- pass@1:评估指标,表示在第一次尝试中成功解决问题的比例
- Mean@32:评估指标,通过32次独立运行计算的平均Pass@1分数
- WebWalkerQA:用于评估网页智能体性能的基准数据集,要求理解自然语言指令和复杂网页结构
- ReAct:结合推理和行动的代理框架,用于工具集成的问题解决,通过工具使用实现动态规划
- 线段加法参数化:线段加法参数化方法,使用DE + EC = DC = AB = 107和EC + CF = EF = 184来获得变量关系