arXiv ID:
2602.03184
arXiv 提交日期: 2026-02-03
DynSplit-KV:用于高效长上下文大语言模型推理中键值缓存压缩的动态语义分割方法 / DynSplit-KV: Dynamic Semantic Splitting for KVCache Compression in Efficient Long-Context LLM Inference
1️⃣ 一句话总结
这篇论文提出了一种名为DynSplit-KV的新方法,它通过动态识别文本中的语义边界来智能分割和压缩大语言模型推理过程中的键值缓存,从而在长文本处理场景下,显著提升了处理速度、降低了内存占用,同时保持了模型的准确性。