2509.09118 – Summary

📄 Abstract - Improving Text-based Person Re-identification via Gradient-Attention Dual Masking Synergy and WebPerson Dataset

⏳ 正在获取摘要...

📄 论文总结

基于梯度注意力双掩码协同与WebPerson数据集的文本行人重识别改进

Improving Text-based Person Re-identification via Gradient-Attention Dual Masking Synergy and WebPerson Dataset

1️⃣ 一句话总结

本研究针对CLIP模型在文本行人重识别任务中的不足，提出了大规模高质量行人中心图文数据集WebPerson和梯度注意力引导的双掩码协同框架GA-DMS，显著提升了跨模态对齐能力和细粒度语义学习性能。

2️⃣ 论文创新点

1. WebPerson数据集构建

创新点是什么：利用多模态大语言模型的上下文学习能力自动过滤和标注网络图像，构建了包含500万高质量行人中心图像-文本对的大规模数据集
与已有方法的区别/改进：解决了行人中心数据稀缺和噪声问题，提供了大规模高质量训练数据
为什么有意义：为学习判别性行人表征提供了关键数据基础，推动模型性能提升

2. GA-DMS框架

创新点是什么：梯度注意力引导的双掩码协同框架，通过梯度注意力相似性评分自适应掩码噪声文本token，并引入掩码token预测目标增强细粒度语义表示学习
与已有方法的区别/改进：改善了跨模态对齐，增强了模型对噪声文本的鲁棒性
为什么有意义：提升了细粒度语义表示学习能力，在多个基准测试中实现了最先进的性能

3. 梯度注意力相似性评分(GASS)

创新点是什么：通过计算文本标记的梯度重要性和空间重要性，量化每个文本标记对图像-文本对齐的贡献
与已有方法的区别/改进：结合多尺度池化层捕获细粒度语义，提供更精细的标记重要性评估
为什么有意义：为模型训练提供了动态的标记区分机制，提升了训练效率和效果

3️⃣ 主要结果与价值

实验结果亮点

GA-DMS在三个基准数据集(CUHK-PEDES、ICFG-PEDES、RSTPReid)上相比现有方法取得性能提升，特别是在RSTPReid上Rank-1和mAP分别提升10.10%和7.72%
WebPerson数据集在0.1M样本规模下表现出强鲁棒性和可迁移性，在1M和5M规模下均达到最优性能
通过数据扩展分析证明预训练数据规模从0.1M扩展到5M样本时，Rank-1准确率相比0.1M基线显著提升9.39%-16.46%

实际应用价值

为文本到行人检索任务提供了高质量的预训练数据集，支持实际应用中的模型训练
提出的GA-DMS框架能够有效处理真实场景中的噪声文本描述，提升模型在实际应用中的鲁棒性
方法在跨域场景中表现突出，展现了良好的泛化能力和迁移性

4️⃣ 术语表

WebPerson：大规模高质量行人中心图像-文本对数据集，包含500万样本，通过多模态大语言模型自动过滤和标注网络图像构建
GA-DMS：梯度注意力引导的双掩码协同框架，用于改进跨模态对齐和噪声鲁棒性，包含梯度注意力相似性评分和双掩码协同学习机制
GASS：梯度注意力相似性评分，通过整合梯度和注意力信息来计算文本标记的权重，用于进行掩码概率计算
SDM loss：相似性分布匹配损失，由图像到文本损失和文本到图像损失组成，用于对齐图像-文本对的分布
MTP loss：掩码标记预测损失，用于预测被掩码的文本标记
mAP：平均精度均值，用于评估检索系统性能的指标
CLIP：对比语言-图像预训练模型，用于学习图像和文本的联合表示
Person Re-identification：行人重识别，计算机视觉中识别不同摄像头下同一行人的技术

← 返回列表

菜单

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. WebPerson数据集构建

2. GA-DMS框架

3. 梯度注意力相似性评分(GASS)

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. WebPerson数据集构建

2. GA-DMS框架

3. 梯度注意力相似性评分(GASS)

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要