arXiv ID:
2602.10048
arXiv 提交日期: 2026-02-10
通过细粒度分组策略优化实现长思维链压缩 / Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization
1️⃣ 一句话总结
这篇论文提出了一种名为FGO的新算法,它能够智能地压缩大型语言模型生成的冗长思维链,在保持模型推理能力不变的前提下,有效降低计算成本和延迟,并解决了原有方法数据利用效率低和熵崩溃的问题。