arXiv ID:
2606.11164
ReasonAlloc:面向推理模型的解码阶段键值缓存分层预算分配方法 / ReasonAlloc: Hierarchical Decoding-Time KV Cache Budget Allocation for Reasoning Models
1️⃣ 一句话总结
本文提出一种无需重新训练的方法ReasonAlloc,在长链式推理场景下,通过离线层间与在线头间两级动态分配键值缓存预算,解决了传统均匀裁剪策略在推理过程中效率低下的问题,显著提升了小预算时模型的数学推理性能。