📄 论文总结
代理熵平衡策略优化 / Agentic Entropy-Balanced Policy Optimization
1️⃣ 一句话总结
AEPO是一种针对Web Agent训练的强化学习算法,通过动态熵平衡机制解决了高熵信号依赖导致的训练崩溃问题,在多个基准测试中显著优于主流RL方法。
2️⃣ 论文创新点
1. 动态熵平衡Rollout机制
- 创新点:通过熵预测自适应分配全局和分支采样预算,并对连续高熵工具调用步骤施加分支惩罚以防止过度分支问题
- 区别/改进:解决了高熵Rollout崩溃问题,提升了采样多样性
- 意义:提高了探索效率,确保树状结构Rollout的平衡探索
2. 熵平衡策略优化
- 创新点:在高熵裁剪项中集成stop-gradient操作以保留和适当缩放高熵token的梯度,同时结合熵感知优势估计优先学习高不确定性token
- 区别/改进:改进了梯度处理和高不确定性token的学习优先级
- 意义:防止模型陷入固定范式推理,促进工具使用模式的探索
3. 熵感知优势估计
- 创新点:将token熵计算整合到优势塑造中,为正确但高不确定性的探索性token分配更高奖励
- 区别/改进:改进了传统基于结果的RL算法对所有token分配相同优势的局限
- 意义:增强模型在训练过程中对探索性token的学习关注
3️⃣ 主要结果与价值
结果亮点
- 在GAIA基准上Pass@1达到47.6%,HLE基准11.2%,WebWalkerQA基准43.0%
- 仅使用1k个RL训练样本,Qwen3-14B结合AEPO在多个测试中取得显著成果
- 相比其他RL算法更稳定,避免了熵崩溃问题
实际价值
- 为开发通用Web Agent提供了有效的熵平衡解决方案
- 提升了智能体在广义推理任务中的性能
- 支持大规模GPU部署,为深度信息搜索任务提供高效训练基础
4️⃣ 术语表
- AEPO:Agentic Entropy-Balanced Policy Optimization,一种在Rollout和策略更新阶段实施双熵平衡的强化学习算法,用于优化Web Agent训练
- High-entropy Rollout Collapse:高熵Rollout崩溃,指在Rollout阶段高熵工具调用步骤连续发生,导致LLM在高熵指导下过度分支,限制采样多样性的问题
- Pass@k:评估指标,表示在k次采样中至少有一次成功的概率,用于衡量模型性能
- stop-gradient:一种操作,用于解耦前向和后向传播,在AEPO中保护高熵标记的梯度不受裁剪约束
- 熵平衡波束:Entropy-Balanced Beaming,在工具调用步骤中展示有益熵变化同时约束连续高熵分支采样的策略