📄 论文总结
基于梯度注意力双掩码协同与WebPerson数据集的文本行人重识别改进
Improving Text-based Person Re-identification via Gradient-Attention Dual Masking Synergy and WebPerson Dataset
1️⃣ 一句话总结
本研究针对CLIP模型在文本行人重识别任务中的不足,提出了大规模高质量行人中心图文数据集WebPerson和梯度注意力引导的双掩码协同框架GA-DMS,显著提升了跨模态对齐能力和细粒度语义学习性能。
2️⃣ 论文创新点
1. WebPerson数据集构建
- 创新点是什么:利用多模态大语言模型的上下文学习能力自动过滤和标注网络图像,构建了包含500万高质量行人中心图像-文本对的大规模数据集
- 与已有方法的区别/改进:解决了行人中心数据稀缺和噪声问题,提供了大规模高质量训练数据
- 为什么有意义:为学习判别性行人表征提供了关键数据基础,推动模型性能提升
2. GA-DMS框架
- 创新点是什么:梯度注意力引导的双掩码协同框架,通过梯度注意力相似性评分自适应掩码噪声文本token,并引入掩码token预测目标增强细粒度语义表示学习
- 与已有方法的区别/改进:改善了跨模态对齐,增强了模型对噪声文本的鲁棒性
- 为什么有意义:提升了细粒度语义表示学习能力,在多个基准测试中实现了最先进的性能
3. 梯度注意力相似性评分(GASS)
- 创新点是什么:通过计算文本标记的梯度重要性和空间重要性,量化每个文本标记对图像-文本对齐的贡献
- 与已有方法的区别/改进:结合多尺度池化层捕获细粒度语义,提供更精细的标记重要性评估
- 为什么有意义:为模型训练提供了动态的标记区分机制,提升了训练效率和效果
3️⃣ 主要结果与价值
实验结果亮点
- GA-DMS在三个基准数据集(CUHK-PEDES、ICFG-PEDES、RSTPReid)上相比现有方法取得性能提升,特别是在RSTPReid上Rank-1和mAP分别提升10.10%和7.72%
- WebPerson数据集在0.1M样本规模下表现出强鲁棒性和可迁移性,在1M和5M规模下均达到最优性能
- 通过数据扩展分析证明预训练数据规模从0.1M扩展到5M样本时,Rank-1准确率相比0.1M基线显著提升9.39%-16.46%
实际应用价值
- 为文本到行人检索任务提供了高质量的预训练数据集,支持实际应用中的模型训练
- 提出的GA-DMS框架能够有效处理真实场景中的噪声文本描述,提升模型在实际应用中的鲁棒性
- 方法在跨域场景中表现突出,展现了良好的泛化能力和迁移性
4️⃣ 术语表
- WebPerson:大规模高质量行人中心图像-文本对数据集,包含500万样本,通过多模态大语言模型自动过滤和标注网络图像构建
- GA-DMS:梯度注意力引导的双掩码协同框架,用于改进跨模态对齐和噪声鲁棒性,包含梯度注意力相似性评分和双掩码协同学习机制
- GASS:梯度注意力相似性评分,通过整合梯度和注意力信息来计算文本标记的权重,用于进行掩码概率计算
- SDM loss:相似性分布匹配损失,由图像到文本损失和文本到图像损失组成,用于对齐图像-文本对的分布
- MTP loss:掩码标记预测损失,用于预测被掩码的文本标记
- mAP:平均精度均值,用于评估检索系统性能的指标
- CLIP:对比语言-图像预训练模型,用于学习图像和文本的联合表示
- Person Re-identification:行人重识别,计算机视觉中识别不同摄像头下同一行人的技术