arXiv ID:
2603.03251
推测式推测解码 / Speculative Speculative Decoding
1️⃣ 一句话总结
这篇论文提出了一种名为‘推测式推测解码’的新方法,通过让模型在验证当前预测的同时,提前准备多种可能的后续预测,从而进一步并行化推理过程,将大语言模型的生成速度在现有加速技术基础上再提升最多2倍。
推测式推测解码 / Speculative Speculative Decoding
这篇论文提出了一种名为‘推测式推测解码’的新方法,通过让模型在验证当前预测的同时,提前准备多种可能的后续预测,从而进一步并行化推理过程,将大语言模型的生成速度在现有加速技术基础上再提升最多2倍。
跨模型族推测式预填充:利用小型草稿模型实现无需训练的长上下文压缩 / Cross-Family Speculative Prefill: Training-Free Long-Context Compression with Small Draft Models
这项研究发现,利用一个轻量级的小模型来压缩长文本提示,即使该小模型与最终使用的大模型来自不同技术家族、使用不同分词器,也能在保持90%以上准确率的同时,显著加快大模型的首次响应速度,从而为需要频繁处理长文本的AI代理系统提供了一种高效且通用的提速方案。
学习草拟:基于强化学习的自适应推测解码 / Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning
这篇论文提出了一种名为‘学习草拟’的新方法,它利用强化学习训练两个相互适应的策略来动态协调大语言模型的草拟和验证阶段,从而直接优化整体解码速度,在多种任务上实现了比现有最佳方法高出最多36.4%的加速效果。
SDFP:基于FIT剪枝模型的推测解码,实现免训练即插即用的大语言模型加速 / SDFP: Speculative Decoding with FIT-Pruned Models for Training-Free and Plug-and-Play LLM Acceleration
这篇论文提出了一种名为SDFP的免训练即插即用框架,它通过剪掉大语言模型中不重要的层来快速构建一个轻量化的草稿模型,从而在不改变原模型输出质量的前提下,将文本生成速度提升了1.3到1.5倍,有效降低了多媒体应用的延迟。
DFlash:用于闪存推测解码的块扩散模型 / DFlash: Block Diffusion for Flash Speculative Decoding
这篇论文提出了一种名为DFlash的新方法,它巧妙地结合了扩散模型的并行生成能力和推测解码框架,通过一个轻量级的块扩散模型来快速生成草稿文本,再由大语言模型进行并行验证,从而在不损失生成质量的前提下,将大模型的推理速度提升了6倍以上。
用于图像生成的多尺度局部推测解码 / Multi-Scale Local Speculative Decoding for Image Generation
这篇论文提出了一种名为MuLo-SD的新方法,通过结合多分辨率草稿生成和基于空间信息的并行验证,显著提升了自回归图像生成模型的速度,在保持图像质量的同时实现了最高1.7倍的加速。
MiMo-V2-Flash 技术报告 / MiMo-V2-Flash Technical Report
这篇论文介绍了一个名为MiMo-V2-Flash的高效大型语言模型,它通过创新的专家混合结构和训练方法,在参数更少的情况下实现了与顶尖开源模型相媲美的推理和智能体能力,并且推理速度更快。
DEER:用扩散模型生成草稿,用自回归模型验证 / DEER: Draft with Diffusion, Verify with Autoregressive Models
这篇论文提出了一种名为DEER的新方法,它使用能并行生成的扩散模型来快速“猜”出后续文本,再用更准确但较慢的自回归模型进行验证和修正,从而在保证大语言模型回答质量的同时,大幅提升了文本生成的速度。
T-pro 2.0:一个高效的俄语混合推理模型与实验平台 / T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground
这篇论文发布了一个名为T-pro 2.0的高效开源俄语大语言模型,它不仅支持直接回答和生成推理步骤,还通过优化技术降低了响应延迟,并配套发布了训练数据、评测基准和推理工具,旨在为构建和评估实用的俄语AI应用提供一个可访问的开放系统。
套利:通过优势感知推测实现高效推理 / Arbitrage: Efficient Reasoning via Advantage-Aware Speculation
这篇论文提出了一种名为Arbitrage的新方法,它通过一个轻量级的‘路由器’智能判断何时使用快速但不精确的草稿模型、何时使用精确但缓慢的目标模型来生成推理步骤,从而在保持大语言模型推理准确性的同时,显著提升了生成速度。
请先 登录 后再提交论文