arXiv ID:
2601.17443
arXiv 提交日期: 2026-01-24
面向设备端大型语言模型的聚类驱动内存压缩 / Clustering-driven Memory Compression for On-device Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种基于聚类的内存压缩方法,通过将相似的用户记忆分组合并,在减少设备端大型语言模型所需内存空间的同时,有效保持了生成内容的个性化质量。