arXiv ID:
2606.03148
arXiv 提交日期: 2026-06-02
A²:更小的自监督视觉Transformer比更大的模型定位更精准 / $A^2$: Smaller Self-Supervised ViTs Localize Better than Larger Ones
1️⃣ 一句话总结
这篇论文发现,在自监督预训练的视觉Transformer中,较小的模型生成的注意力图能更准确地定位图像中的主要物体,而较大的模型虽然能提取更丰富的特征但定位能力较差;因此,作者提出A²方法,通过用小模型定位物体并裁剪图像,再用大模型提取裁剪后的特征,从而兼具两者的优势,在不额外训练的情况下显著提升了分类鲁棒性。