📄 论文总结
注意力机制是扩散大语言模型中KV缓存的全部所需 / Attention Is All You Need for KV Cache in Diffusion LLMs
1️⃣ 一句话总结
这项研究提出了一种名为弹性缓存的训练免费方法,通过选择性更新关键值缓存来大幅减少扩散大语言模型在推理时的计算冗余,在保持生成质量的同时显著提升了解码速度,在多个任务上实现了最高45倍的加速效果。
请先 登录 后再提交论文
注意力机制是扩散大语言模型中KV缓存的全部所需 / Attention Is All You Need for KV Cache in Diffusion LLMs
这项研究提出了一种名为弹性缓存的训练免费方法,通过选择性更新关键值缓存来大幅减少扩散大语言模型在推理时的计算冗余,在保持生成质量的同时显著提升了解码速度,在多个任务上实现了最高45倍的加速效果。
BitNet蒸馏 / BitNet Distillation
这篇论文提出了一种名为BitDistill的轻量级方法,能够将现成的高精度大语言模型针对特定任务微调成仅使用1.58位(三元权重)的极简版本,在保持与原模型相当性能的同时,大幅降低了内存占用并提升了CPU推理速度。
哪些注意力头对推理至关重要?基于强化学习的KV缓存压缩方法 / Which Heads Matter for Reasoning? RL-Guided KV Cache Compression
这项研究提出了一种基于强化学习的新方法,能够自动识别并保护大语言模型中少数对复杂推理至关重要的注意力头,同时对其他头进行高效压缩,实现在减少20-50%内存占用的同时保持近乎无损的推理性能。
不遗漏任何标签:适用于所有监督模式的统一表面缺陷检测模型 / No Label Left Behind: A Unified Surface Defect Detection Model for all Supervision Regimes
这篇论文提出了一个名为SuperSimpleNet的高效通用模型,它通过创新的合成异常生成和优化学习流程,首次实现了在无监督、弱监督、混合监督和全监督四种场景下都能高效训练和检测表面缺陷,并在保持高速推理的同时显著提升了检测性能。