arXiv ID:
2604.21335
arXiv 提交日期: 2026-04-23
LoRA中的子令牌路由:用于模型适配与查询感知的KV压缩 / Sub-Token Routing in LoRA for Adaptation and Query-Aware KV Compression
1️⃣ 一句话总结
该论文提出了一种在LoRA适配的Transformer模型中,将注意力键值(KV)压缩从传统的“整个令牌”级别细化到“令牌内部子结构”级别的路由方法,通过查询无关和查询感知两种设计,在保持模型质量的同时更高效地压缩上下文信息。