arXiv ID:
2605.14217
arXiv 提交日期: 2026-05-14
PreFT:仅预填充微调实现高效推理 / PreFT: Prefill-only finetuning for efficient inference
1️⃣ 一句话总结
本文提出一种名为PreFT的微调方法,仅在模型处理输入(预填充阶段)应用适配器,在生成阶段丢弃它,从而在几乎不影响模型性能的情况下,将同时服务数百个个性化适配器的推理吞吐量提升近两倍。