arXiv ID:
2604.20021
arXiv 提交日期: 2026-04-21
面向低成本大模型服务的连续语义缓存 / Continuous Semantic Caching for Low-Cost LLM Serving
1️⃣ 一句话总结
该研究首次提出了一个适用于连续查询空间的语义缓存理论框架,通过动态离散化和核岭回归方法,让大模型在服务用户时能高效复用先前回答,从而大幅降低计算成本,并保证在线决策的优化效果。