arXiv ID:
2602.03060
arXiv 提交日期: 2026-02-03
IVC-Prune:揭示LVLM中的隐式视觉坐标以实现视觉令牌剪枝 / IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning
1️⃣ 一句话总结
本文提出了一种名为IVC-Prune的新方法,通过发现并保留对空间推理至关重要的‘隐式视觉坐标’令牌,在无需额外训练的情况下,将大型视觉语言模型处理高分辨率图像时的视觉令牌数量减少约一半,同时保持甚至提升了模型在多种任务上的性能。