arXiv ID:
2604.11589
arXiv 提交日期: 2026-04-13
MLLM作为评判者表现出模型偏好偏见 / MLLM-as-a-Judge Exhibits Model Preference Bias
1️⃣ 一句话总结
这项研究发现,使用多模态大语言模型自动评估其他模型时,会存在明显的‘自恋’偏见,即倾向于给与自己同源或相似的模型打高分,从而可能扭曲模型比较结果,而作者提出的简单集成方法能有效缓解这种偏见。