arXiv ID:
2604.04500
arXiv 提交日期: 2026-04-06
Saliency-R1:通过显著性图对齐奖励增强视觉-语言模型的可解释性与忠实推理 / Saliency-R1: Enforcing Interpretable and Faithful Vision-language Reasoning via Saliency-map Alignment Reward
1️⃣ 一句话总结
这篇论文提出了一个名为Saliency-R1的新框架,通过让模型在推理时生成的显著性图与人类标注的关键区域对齐,有效提升了视觉-语言模型的可解释性、推理忠实性以及任务表现,解决了模型过度依赖文本线索或产生无根据回答的问题。