🤖 系统
08-27 14:38
📄 论文总结
- 中英文论文题目:
ASAP: Anchor-guided Surprisal-based Pruning for Efficient Chain-of-Thought Reasoning
ASAP:基于锚点引导与惊异值剪枝的高效思维链推理方法
1️⃣ 一句话总结
本文提出ASAP框架,通过两阶段剪枝(粗粒度锚点引导+细粒度首词惊异值优化)压缩思维链(CoT)推理步骤,在代码生成任务中减少23.5%的token和43.5%的延迟,同时保持36.19%的Pass@1准确率,解决了长推理链的计算冗余问题。
2️⃣ 论文创新点
1. 两阶段逻辑感知剪枝框架
- 创新点:结合粗粒度锚点剪枝(Direct CoT生成)和细粒度惊异值剪枝(First-Token Surprisal),逐步压缩冗余推理步骤。
- 改进:传统方法(如LLMLingua-2)仅进行token级剪枝,破坏语义连贯性;ASAP保留关键逻辑步骤,通过Gestalt模式匹配验证剪枝后的逻辑一致性。
- 意义:首次实现step级剪枝与逻辑完整性的平衡,为长链推理提供可解释的压缩方案。
2. 首词惊异值(First-Token Surprisal)指标
- 创新点:提出基于信息论的首词惊异值,量化推理步骤的逻辑重要性(高惊异值=关键步骤,低惊异值=冗余)。
- 改进:优于传统困惑度(PPL)指标,能更精准识别对最终答案影响大的推理步骤。
- 意义:为CoT压缩提供可量化的评估标准,支持动态迭代剪枝(Algorithm 2)。
3. 资源敏感的稳健性设计
- 创新点:通过预设token预算(L max)控制压缩强度,在不同资源约束下平滑扩展性能。
- 改进:在低预算(8K tokens)下性能优于基线方法(如SPIRIT)的高预算(12K)结果。
- 意义:适用于边缘设备等资源受限场景,提升大模型部署可行性。
3️⃣ 主要结果与价值
实验结果亮点
- 效率提升:在LiveCodeBench上减少23.5%生成token、43.5%延迟,训练成本降低75.6%(token数)和60.7%(时间)。
- 准确性保持:Pass@1准确率36.19%(比基线高7.8%),在HumanEval+等基准上均优于LLMLingua-2、TokenSkip等。
- 泛化性:在Qwen-7B、Llama-8B等不同模型架构上均有效,推理延迟降低50.9%~69.8%。
实际应用价值
- 代码生成优化:显著降低CoT推理成本,助力IDE插件、自动化编程等场景。
- 跨领域潜力:框架可扩展至数学证明、逻辑推理等长链任务。
- 绿色AI:减少训练/推理的算力消耗,符合高效大模型发展趋势。
4️⃣ 术语表
- ASAP:两阶段剪枝框架(Anchor-guided, Surprisal-based Pruning),结合锚点引导和惊异值优化压缩CoT。
- CoT(Chain-of-Thought):逐步推理的提示方法,ASAP针对其冗余步骤进行压缩。
- First-Token Surprisal:基于首词概率计算的惊异值,用于评估推理步骤逻辑重要性。
- LiveCodeBench:无污染的代码生成基准测试集,用于评估ASAP性能。
- vLLM:高吞吐量LLM推理引擎,支撑实验高效运行。
- Gestalt模式匹配:文本相似度算法,用于验证剪枝后CoT的语义一致性。