arXiv ID:
2604.17768
arXiv 提交日期: 2026-04-20
当视觉语言模型不看就评判:揭示信息量偏见 / When Vision-Language Models Judge Without Seeing: Exposing Informativeness Bias
1️⃣ 一句话总结
这篇论文发现,当前用于自动评估视觉语言模型的‘VLM-as-a-Judge’系统存在一个根本缺陷——它们常常不看图像内容,而盲目偏爱信息量更丰富的答案,为此,作者提出了一种名为BIRCH的新评判范式来纠正这种偏见,显著提升了评判的可靠性。