arXiv ID:
2606.03569
arXiv 提交日期: 2026-06-02
当注意力崩溃时:从结构到语义的分阶段感知视觉令牌剪枝 / When Attention Collapses: Stage-Aware Visual Token Pruning from Structure to Semantics
1️⃣ 一句话总结
本文提出一种名为STS的两阶段视觉令牌剪枝方法,先通过排斥机制保留空间结构多样性,再根据指令语义精确筛选相关令牌,从而克服传统方法因注意力集中而丢失关键细节的问题,提升视觉语言模型推理效率与任务对齐能力。