arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2510.19779

🤖 系统

10-27 21:57

llm systems

speculative decoding knowledge distillation inference acceleration token selection model efficiency

📄 论文总结

AdaSPEC：基于选择性知识蒸馏的改进型推测解码方法 / AdaSPEC: Improved Speculative Decoding via Selective Knowledge Distillation

1️⃣ 一句话总结

AdaSPEC是一种通过选择性知识蒸馏改进推测解码的方法，通过过滤难以拟合的token让草稿模型专注于可学习内容，在保持生成质量的同时显著提高token接受率。

2️⃣ 论文创新点

1. 选择性知识蒸馏

创新点：使用参考模型识别并过滤难以拟合的token，仅对选定的可学习token进行蒸馏训练
区别/改进：改进了传统知识蒸馏对所有token最小化KL散度的做法，避免在难以学习的token上浪费模型容量
意义：使草稿模型在容量限制下更好地吸收目标模型知识，提高token接受率而不牺牲生成质量

2. 两阶段蒸馏框架

创新点：第一阶段使用参考模型识别困难标记，第二阶段让草稿模型专注于简单标记的训练
区别/改进：通过过滤困难标记，让草稿模型集中有限能力学习可掌握的标记
意义：在多个任务和模型设置中一致实现更高的接受率，最高提升15%

3. 基于KL散度的token选择策略

创新点：根据KL散度差异选择前40%最具学习价值的token进行训练
区别/改进：相比选择后40%token，在MBPP上带来6%性能提升
意义：有效识别任务关键token，提升模型对齐精度

4. 自适应token选择机制

创新点：通过调整token选择比例k来优化训练过程
区别/改进：较低k值（0.2-0.4）带来更高接受率，选择k=0.4平衡效率与性能
意义：提高草稿模型的token接受率，缓解模型容量差异带来的表示不匹配问题

3️⃣ 主要结果与价值

结果亮点

在多个任务（GSM8K、Alpaca、MBPP、CNN/Daily Mail、XSUM）和模型配置上均优于基线DistillSpec
与EAGLE集成后在MT-Bench上提升了训练准确率和解码效率
在真实世界设置中使用vLLM引擎，相比DistillSpec实现10-20%的加速
在更大模型配置（Qwen2.5-0.5B到32B）和混合数据集上表现出良好的扩展性和泛化能力

实际价值

显著提升大语言模型的推理速度，降低服务延迟
为资源受限环境提供高效的模型加速方案
可与现有推测解码框架（如EAGLE）无缝集成，进一步优化性能
适用于多种任务类型，包括数学推理、代码生成和文本摘要

4️⃣ 术语表

AdaSPEC：一种自适应推测解码方法，通过选择性token过滤和知识蒸馏提高token接受率
推测解码：一种加速语言模型推理的技术，使用紧凑草稿模型生成预测序列，由更大目标模型验证
知识蒸馏：通过训练小模型模仿大模型输出的模型压缩技术
接受率：草稿模型生成的令牌被目标模型验证通过的比例，用于评估性能的关键指标
token选择比例k：控制训练过程中保留token比例的参数，影响最终接受率
KL散度：衡量两个概率分布差异的指标，用于token选择的标准
PagedAttention：用于大语言模型服务的高效内存管理机制，通过分页方式优化注意力计算的内存使用
EAGLE：一种先进的推测解码方法，重新思考特征不确定性的预测采样方法

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2510.19779

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 选择性知识蒸馏

2. 两阶段蒸馏框架

3. 基于KL散度的token选择策略

4. 自适应token选择机制

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2510.19779 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 选择性知识蒸馏

2. 两阶段蒸馏框架

3. 基于KL散度的token选择策略

4. 自适应token选择机制

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要

2510.19779