← 返回列表

🤖 系统

📄 Abstract - Elastic-Cache: An Adaptive Method for Optimizing KV Cache Computation in Diffusion Large Language Models

⏳ 正在获取摘要...

顶级标签: llm systems

📄 论文总结

Elastic-Cache：用于优化扩散大语言模型KV缓存计算的自适应方法 / Elastic-Cache: An Adaptive Method for Optimizing KV Cache Computation in Diffusion Large Language Models

1️⃣ 一句话总结

Elastic-Cache是一种无需训练、架构无关的KV缓存管理策略，通过注意力感知和深度选择性更新机制，在保持生成质量的同时显著加速扩散大语言模型的解码过程。

2️⃣ 论文创新点

1. 注意力感知KV缓存更新

创新点：通过监控最受关注token的注意力权重变化，动态决定何时更新KV缓存
区别/改进：替代固定周期刷新方案，实现自适应、层感知的缓存更新
意义：减少冗余计算，加速解码，同时保持生成质量

2. 深度选择性更新

创新点：从学习的边界层开始，仅更新深层网络的KV缓存，而重用浅层缓存
区别/改进：避免固定边界层的局限性，实现更精细的更新控制
意义：提供保守的下界估计，确保缓存更新的准确性和效率平衡

3. 滑动窗口解码机制

创新点：将MASK token分组到滑动窗口中，确保相邻token一起预测
区别/改进：相比块状解码，能更好地处理块末尾附近的MASK token，避免因过度缓存上下文导致的低效预测
意义：最小化远处MASK token的缓存损失，提高解码效率

4. 可调节速度-精度平衡机制

创新点：通过缓存更新阈值γ直接控制速度与精度的平衡
区别/改进：优化γ值可同时最大化准确性和吞吐量，高精度模型的最佳γ值更接近1.0
意义：提供了灵活的性能调优手段，适应不同应用场景的需求

3️⃣ 主要结果与价值

结果亮点

在GSM8K上达到90.1 t/s的吞吐量（25.2倍于基线）和77.71%的准确率，优于Fast-dLLM的44.0 t/s和74.83%
在多个基准测试（GSM8K、MATH、HumanEval、MBPP）上实现显著吞吐量提升（最高45.1倍加速）
精度损失最小（1-2%以内），在部分任务上精度甚至超过基线
在多模态任务（如LLaDA-V）中也表现出鲁棒性

实际价值

显著减少解码延迟，提高推理效率
适用于文本和多模态任务，具有高可扩展性
无需训练，仅由少量推理超参数定义，便于实际部署
随生成长度和基础模型能力扩展，适应LLM发展趋势

4️⃣ 术语表

KV缓存：键值缓存，存储注意力机制中先前计算的键和值状态以避免冗余计算的技术
扩散大语言模型：基于扩散过程的迭代去噪机制的大语言模型
Elastic-Cache：用于扩散LLM解码的自适应、层感知KV刷新策略，结合注意力感知漂移测试和深度选择性更新
MDMs：掩码扩散模型，基于D3PM的吸收态离散扩散模型，通过前向过程将token替换为特殊MASK标记
滑动窗口解码：一种解码方法，将MASK token分组到滑动窗口中，确保相邻token一起预测
γ：注意力阈值超参数，控制缓存更新的触发频率
GSM8K：一个基准测试数据集，用于评估模型在数学推理任务上的性能，常以准确率和吞吐量为指标

📄 打开原文 PDF