arXiv ID:
2606.05875
arXiv 提交日期: 2026-06-04
QCFuse:通过压缩视图实现查询感知缓存融合以高效支持RAG服务 / QCFuse: Query-Aware Cache Fusion via Compressed View for Efficient RAG Serving
1️⃣ 一句话总结
本文提出一种名为QCFuse的高效方法,通过压缩视图技术让系统在复用已计算好的缓存时,能快速识别出哪些检索内容与当前用户的查询最相关,从而大幅减少重复计算,提升AI助手的响应速度。