📄 论文总结
基于阶段熵感知奖励的推理效率优化方法 / Phase Entropy Aware Reward for Efficient Reasoning
1️⃣ 一句话总结
本文提出PEAR方法,通过分析推理模型在不同阶段的熵值变化,设计阶段依赖的奖励机制,在保持准确性的同时显著提升推理效率。
2️⃣ 论文创新点
1. 阶段熵感知奖励机制
- 创新点:将推理过程分为思考阶段和答案阶段,根据两个阶段的熵特性设计差异化的奖励策略
- 区别/改进:通过惩罚思考阶段的高熵值减少冗余推理步骤,同时保留答案阶段的探索灵活性,替代传统的显式长度控制或截断规则
- 意义:实现自适应响应长度控制,在四个基准测试中显著减少响应长度同时保持竞争性准确率,并展现出强大的分布外鲁棒性
2. 熵与推理效率的关联分析
- 创新点:实证分析熵与响应长度之间的正相关关系,发现思考阶段的熵显著高于最终答案阶段
- 区别/改进:基于观察提出可以通过修剪过度熵而不损害推理质量
- 意义:揭示了熵在推理不同阶段(探索与承诺)的独特角色,为优化推理效率提供了新视角
3. 两阶段熵值优化
- 创新点:思考阶段熵值抑制过度探索,最终答案阶段熵值稳定结尾步骤
- 区别/改进:鼓励生成更专注高效的推理轨迹,同时确保完整连贯的答案
- 意义:在保持准确率的同时显著减少冗余推理步骤
3️⃣ 主要结果与价值
结果亮点
- 在数学推理基准测试中减少token使用量最高达59.4%
- 准确率下降小于1%,实现效率与性能的最佳平衡
- 在较大模型上效果更明显,展现良好的跨领域泛化能力
实际价值
- 无需手动数据整理或显式长度约束即可实现响应长度的大幅减少
- 提供平衡探索与效率的软自适应机制
- 为推理模型提供通用、领域无关的效率控制信号
4️⃣ 术语表
- PEAR:Phase Entropy Aware Reward,基于阶段熵感知的奖励机制,用于优化大型推理模型的推理效率
- LRMs:Large Reasoning Models,大型推理模型,能够生成详细思维链解释来解决复杂推理任务
- 熵:预测分布在每个词元位置的不确定性度量,计算公式为H_t = -Σp(i|t)log p(i|t)
- 思考阶段:模型生成过程中在标记之前的阶段,以高熵和探索性为特征
- GRPO:Group Relative Policy Optimization,通过跨组响应奖励归一化估计优势,无需critic模型
- GSM8K:包含小学数学文字问题的训练数据集,用于评估多步推理能力
- α:控制答案阶段熵惩罚强度的超参数
- RLVR:Reinforcement Learning with Verifiable Rewards,可验证奖励的强化学习