arXiv ID:
2605.20022
arXiv 提交日期: 2026-05-19
FlexDraft:通过注意力调优和奖励引导校准实现灵活的投机解码 / FlexDraft: Flexible Speculative Decoding via Attention Tuning and Bonus-Guided Calibration
1️⃣ 一句话总结
本文提出了一种名为FlexDraft的新型投机解码框架,通过仅调整少数注意力层、利用奖励令牌动态校准草稿以及自适应切换解码策略,在无需重新训练且不降低生成质量的前提下,显著提升了大语言模型在不同批次大小下的推理速度。