arXiv ID:
2510.01123
重新思考思维令牌:将大语言模型作为改进操作器 / Rethinking Thinking Tokens: LLMs as Improvement Operators
1️⃣ 一句话总结
这篇论文提出了一种名为PDR的并行提炼优化推理方法,让大语言模型通过并行生成草稿并迭代优化的方式,在降低计算成本和延迟的同时,反而比传统长链思维推理获得了更高的数学解题准确率。