arXiv ID:
2605.20035
arXiv 提交日期: 2026-05-19
面向高效全模态大语言模型的分阶段自适应令牌选择方法 / Stage-adaptive Token Selection for Efficient Omni-modal LLMs
1️⃣ 一句话总结
本文提出一种无需额外训练的令牌选择方法SEATS,通过分析多模态大模型中视觉和音频令牌在各层的重要性变化,在模型不同阶段(输入前、中间层、后期层)自适应地剪枝冗余令牌,以极低的计算成本(仅保留10%的非文本令牌)实现近5倍的速度提升,同时保持96%以上的模型性能。