arXiv ID:
2603.16840
arXiv 提交日期: 2026-03-17
DINO看到了什么:ALiBi位置编码减少视觉Transformer中的位置偏差 / What DINO saw: ALiBi positional encoding reduces positional bias in Vision Transformers
1️⃣ 一句话总结
这篇论文发现像DINOv2这样的视觉Transformer模型在处理图像时,会因为位置编码而产生与内容无关的位置偏差,尤其是在材料科学等领域的均匀结构图像中影响零样本适应能力;作者通过微调模型采用ALiBi相对位置编码,有效减少了这种偏差,同时保持了模型良好的语义特征,使其能更好地用于复杂显微镜图像的分割任务。