🤖 系统
11-30 17:38
📄 论文总结
哪些注意力头对推理至关重要?基于强化学习的KV缓存压缩方法 / Which Heads Matter for Reasoning? RL-Guided KV Cache Compression
1️⃣ 一句话总结
这项研究提出了一种基于强化学习的新方法,能够自动识别并保护大语言模型中少数对复杂推理至关重要的注意力头,同时对其他头进行高效压缩,实现在减少20-50%内存占用的同时保持近乎无损的推理性能。