arXiv ID:
2603.02631
arXiv 提交日期: 2026-03-03
跨模型族推测式预填充:利用小型草稿模型实现无需训练的长上下文压缩 / Cross-Family Speculative Prefill: Training-Free Long-Context Compression with Small Draft Models
1️⃣ 一句话总结
这项研究发现,利用一个轻量级的小模型来压缩长文本提示,即使该小模型与最终使用的大模型来自不同技术家族、使用不同分词器,也能在保持90%以上准确率的同时,显著加快大模型的首次响应速度,从而为需要频繁处理长文本的AI代理系统提供了一种高效且通用的提速方案。