arXiv ID:
2602.04304
arXiv 提交日期: 2026-02-04
超越静态裁剪:面向复杂推理任务的层自适应视觉定位与解码增强 / Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement
1️⃣ 一句话总结
这篇论文发现,大视觉语言模型在不同任务中依赖不同网络层进行视觉定位,并据此提出了一种无需训练、能自适应选择关键视觉信息层以提升复杂视觉问答准确性的新方法。