arXiv ID:
2602.03773
arXiv 提交日期: 2026-02-03
推理缓存:通过短视界强化学习实现长视界的持续改进 / Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL
1️⃣ 一句话总结
这篇论文提出了一种名为‘推理缓存’的新算法,它能让大型语言模型在解决复杂推理问题时,通过迭代式的自我总结和改进,实现远超训练时所见范围的持续性能提升。