arXiv ID:
2605.21226
arXiv 提交日期: 2026-05-20
OCTOPUS:基于最优平方误差量化的八面体参数化变换器KV缓存优化方法 / OCTOPUS: Optimized KV Cache for Transformers via Octahedral Parametrization Under optimal Squared error quantization
1️⃣ 一句话总结
OCTOPUS提出了一种新的键值缓存压缩方法,通过将旋转后的坐标三元组进行八面体参数化并联合量化,在保持模型精度的同时大幅减少长文本推理中的内存占用和带宽需求,且不增加解码延迟。