arXiv ID:
2602.16590
基于注意力特征自适应的对比学习框架在街景图像分类中的应用 / A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification
1️⃣ 一句话总结
这篇论文提出了一种名为CLIP-MHAdapter的轻量级改进方法,通过在预训练视觉语言模型CLIP上添加一个带有多头自注意力机制的小型网络模块,使其能更有效地捕捉街景图像中细粒度的局部特征,从而以较低的算力成本在多个街景属性分类任务上取得了领先或具有竞争力的准确率。