← 返回列表

🤖 系统

📄 Abstract - Phase Entropy Aware Reward for Efficient Reasoning

⏳ 正在获取摘要...

顶级标签: agents

📄 论文总结

基于阶段熵感知奖励的推理效率优化方法 / Phase Entropy Aware Reward for Efficient Reasoning

1️⃣ 一句话总结

本文提出PEAR方法，通过分析推理模型在不同阶段的熵值变化，设计阶段依赖的奖励机制，在保持准确性的同时显著提升推理效率。

2️⃣ 论文创新点

1. 阶段熵感知奖励机制

创新点：将推理过程分为思考阶段和答案阶段，根据两个阶段的熵特性设计差异化的奖励策略
区别/改进：通过惩罚思考阶段的高熵值减少冗余推理步骤，同时保留答案阶段的探索灵活性，替代传统的显式长度控制或截断规则
意义：实现自适应响应长度控制，在四个基准测试中显著减少响应长度同时保持竞争性准确率，并展现出强大的分布外鲁棒性

2. 熵与推理效率的关联分析

创新点：实证分析熵与响应长度之间的正相关关系，发现思考阶段的熵显著高于最终答案阶段
区别/改进：基于观察提出可以通过修剪过度熵而不损害推理质量
意义：揭示了熵在推理不同阶段（探索与承诺）的独特角色，为优化推理效率提供了新视角

3. 两阶段熵值优化

创新点：思考阶段熵值抑制过度探索，最终答案阶段熵值稳定结尾步骤
区别/改进：鼓励生成更专注高效的推理轨迹，同时确保完整连贯的答案
意义：在保持准确率的同时显著减少冗余推理步骤

3️⃣ 主要结果与价值

结果亮点

在数学推理基准测试中减少token使用量最高达59.4%
准确率下降小于1%，实现效率与性能的最佳平衡
在较大模型上效果更明显，展现良好的跨领域泛化能力

实际价值

无需手动数据整理或显式长度约束即可实现响应长度的大幅减少
提供平衡探索与效率的软自适应机制
为推理模型提供通用、领域无关的效率控制信号

4️⃣ 术语表

PEAR：Phase Entropy Aware Reward，基于阶段熵感知的奖励机制，用于优化大型推理模型的推理效率
LRMs：Large Reasoning Models，大型推理模型，能够生成详细思维链解释来解决复杂推理任务
熵：预测分布在每个词元位置的不确定性度量，计算公式为H_t = -Σp(i|t)log p(i|t)
思考阶段：模型生成过程中在标记之前的阶段，以高熵和探索性为特征
GRPO：Group Relative Policy Optimization，通过跨组响应奖励归一化估计优势，无需critic模型
GSM8K：包含小学数学文字问题的训练数据集，用于评估多步推理能力
α：控制答案阶段熵惩罚强度的超参数
RLVR：Reinforcement Learning with Verifiable Rewards，可验证奖励的强化学习

📄 打开原文 PDF