arXiv ID:
2605.15621
arXiv 提交日期: 2026-05-15
LRCP:基于低秩可压缩性的视觉标记剪枝方法,用于高效的大型视觉语言模型 / LRCP: Low-Rank Compressibility Guided Visual Token Pruning for Efficient LVLMs
1️⃣ 一句话总结
这篇论文发现视觉语言模型中的图像标记(visual tokens)具有天然的低秩结构,并据此提出了一种无需重新训练的剪枝方法:先通过PCA找出图像标记的主要低维子空间,然后根据每个标记偏离该子空间的程度来筛选出更有价值的部分,从而在不明显降低性能的情况下大幅减少模型计算量,例如在保留94.7%图像理解能力的同时,可以剪掉近九成的标记。