arXiv ID:
2512.21859
arXiv 提交日期: 2025-12-26
TimeBill:面向大语言模型的时间预算推理框架 / TimeBill: Time-Budgeted Inference for Large Language Models
1️⃣ 一句话总结
本文提出了TimeBill,一个新颖的时间预算推理框架,旨在解决大语言模型在严格时间约束(如机器人、自动驾驶等实时系统)下,难以在给定预算内完成推理并保证响应性能的问题,其核心是通过细粒度响应长度预测和端到端执行时间估计来动态调整KV缓存淘汰率,从而在满足时间预算的同时最大化模型输出质量。