🤖 系统
10-14 16:18
📄 论文总结
基于视觉标记认知不确定性缓解大型视觉语言模型物体幻觉 / Mitigating Object Hallucination in Large Vision-Language Models via Visual Token Cognitive Uncertainty
1️⃣ 一句话总结
本研究提出了一种通过识别和掩码视觉编码器中高认知不确定性的视觉标记来有效减少大型视觉语言模型中物体幻觉的方法。
2️⃣ 论文创新点
1. 视觉标记不确定性分析
- 创新点:通过理论分析和实证研究,发现视觉编码器早期层中对干扰引起的表示偏差与视觉标记的认知不确定性密切相关,可作为不确定性高效代理指标
- 区别/改进:替代计算密集的蒙特卡洛dropout方法,提供更高效的不确定性估计方式
- 意义:揭示了视觉编码器内部不确定性对物体幻觉的直接影响机制,为针对性干预提供了理论基础
2. 基于对抗攻击的不确定性视觉标记识别
- 创新点:利用投影梯度下降对抗攻击识别表现出高认知不确定性的视觉标记
- 区别/改进:相比需要数千次前向传播的蒙特卡洛dropout方法,使用对抗攻击能更高效地估计不确定性的上界
- 意义:为减少LVLMs中的物体幻觉提供了理论基础,并显著降低了不确定性估计的计算成本
3. 视觉编码器干预方法
- 创新点:提出仅修改视觉编码器的幻觉缓解策略:使用PGD对抗攻击识别不确定视觉标记,并在自注意力过程中进行掩码
- 区别/改进:避免了多次推理语言模型的计算开销,可与其他方法协同工作
- 意义:提供了一种高效、针对性的幻觉缓解方案,直接处理视觉感知阶段的误差来源
4. 不确定性掩码的自注意力干预
- 创新点:在视觉编码器的中间自注意力层应用二进制不确定性掩码,通过token-wise乘法衰减不确定token在注意力输出中的影响
- 区别/改进:相比在输入或输出层应用掩码,中间层干预能更平衡地减少不确定token影响,同时保留有用视觉信息
- 意义:提供了一种无需训练的幻觉缓解方法,保持模型稳定性的同时有效抑制目标幻觉
3️⃣ 主要结果与价值
结果亮点
- 在LLaVA-1.5-7B模型上,应用该方法后高不确定性bin的平均方差从6.04降至4.98
- CHAIR指标显著下降:CHAIR_s从47.4降至29.2,CHAIR_i从12.2降至9.3
- F1分数从0.47提升至0.77,在保持描述质量的同时减少幻觉
- 在AMBER基准测试中,CHAIR降低高达28.2%,F1分数提升高达7.2%
- 计算效率相比MC dropout方法提高约5倍
实际价值
- 提供无需训练即可缓解物体幻觉的解决方案,易于部署到现有LVLM系统
- 与现有方法如OPERA、VCD、PAI、Devils等兼容,可提供额外的性能增益
- 在多种LVLM模型上验证有效,包括LLaVA-1.5-7B、Shikra-7B和MiniGPT-4
- 在CHAIR、POPE和AMBER等多个基准上系统评估了减轻物体幻觉方法的有效性
4️⃣ 术语表
- epistemic uncertainty:认知不确定性,指由于模型知识不足引起的不确定性,在本文中特指视觉编码器产生的视觉标记不确定性
- object hallucination:物体幻觉,指大型视觉语言模型生成输入图像中不存在的物体描述的问题
- PGD:投影梯度下降,一种主流的图像对抗攻击策略,用于生成扰动样本来识别不确定性视觉标记
- LVLMs:大型视觉语言模型,集成视觉和文本输入进行多模态推理和生成,具有强大的多模态能力但仍易受对抗攻击影响
- uncertainty map:通过聚合层间隐藏状态偏差范数生成的不确定性图,用于识别视觉标记的不确定性程度
- CHAIR:评估目标幻觉严重程度的基准指标,包括句子级(CHAIR_s)和实例级(CHAIR_i)两个维度,值越高表示幻觉越严重
- MC dropout:通过蒙特卡洛dropout计算token-level方差来估计视觉token不确定性图的方法
- POPE:通过二元目标存在查询评估幻觉的基准,包含三个划分(Random, Popular, Adversarial),共9000个提示,报告准确率
- AMBER:综合评估幻觉的基准,包含两种设置:生成式方法(通过图像描述评估幻觉)和判别式方法(使用是/否选择)
- uncertainty mask M:通过对抗攻击从视觉编码器早期层提取的二进制不确定性掩码,用于识别不确定的视觉标记
- Cs/Ci:评估目标幻觉的指标,Cs和Ci值越低表示幻觉越少