arXiv ID:
2606.13126
arXiv 提交日期: 2026-06-11
MiniPIC:不到100行代码实现的灵活、位置无关缓存方案 / MiniPIC: Flexible Position-Independent Caching in <100LOC
1️⃣ 一句话总结
MiniPIC通过仅修改不到100行核心代码,并引入三种用户可控的缓存原语,使得大语言模型推理引擎(如vLLM)能够高效复用任意位置出现的重复文本片段(如文档或代码),从而显著提升检索增强和智能体工作负载的预填充吞吐量,并大幅降低首次输出延迟。