arXiv ID:
2602.04864
arXiv 提交日期: 2026-02-04
当LLaVA遇见物体:视觉语言模型的令牌组合方法 / When LLaVA Meets Objects: Token Composition for Vision-Language-Models
1️⃣ 一句话总结
这篇论文提出了一种名为Mask-LLaVA的新方法,通过组合不同层级的视觉特征来大幅减少视觉语言模型所需的图像表示令牌数量,从而在保持性能的同时显著提升模型推理效率。