arXiv最新AI论文速览速学

🔍

标签: #evaluation bias ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 88 72小时内新更新论文 72h更新 188 最新: When Vision-Language Models Judge Without Seeing: Exposing Informativeness Bias 04-21

arXiv ID: 2604.17768

arXiv 提交日期: 2026-04-20

multi-modal model evaluation natural language processing vision-language models evaluation bias informativeness bias automatic evaluation benchmark

当视觉语言模型不看就评判：揭示信息量偏见 / When Vision-Language Models Judge Without Seeing: Exposing Informativeness Bias

1️⃣ 一句话总结

这篇论文发现，当前用于自动评估视觉语言模型的‘VLM-as-a-Judge’系统存在一个根本缺陷——它们常常不看图像内容，而盲目偏爱信息量更丰富的答案，为此，作者提出了一种名为BIRCH的新评判范式来纠正这种偏见，显著提升了评判的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11589

arXiv 提交日期: 2026-04-13

llm model evaluation multi-modal evaluation bias multimodal llm benchmark self-preference ensemble methods

MLLM作为评判者表现出模型偏好偏见 / MLLM-as-a-Judge Exhibits Model Preference Bias

1️⃣ 一句话总结

这项研究发现，使用多模态大语言模型自动评估其他模型时，会存在明显的‘自恋’偏见，即倾向于给与自己同源或相似的模型打高分，从而可能扭曲模型比较结果，而作者提出的简单集成方法能有效缓解这种偏见。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10287

arXiv 提交日期: 2026-03-11

llm model evaluation data llm-as-a-judge tensor clustering evaluation bias multiway clustering score analysis

MultiwayPAM：用于LLM-as-a-Judge评分分析的多向围绕中心点划分方法 / MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis

1️⃣ 一句话总结

本文提出了一种名为MultiwayPAM的张量聚类新方法，用于高效分析LLM作为评分员时产生的多维度评分数据，从而揭示评分偏差的结构并降低计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.22548

arXiv 提交日期: 2026-01-30

llm model evaluation natural language processing evaluation bias self-preference judge bias methodology benchmark

LLM评估者真的是自恋者吗？对自我偏好评估的合理性检验 / Are LLM Evaluators Really Narcissists? Sanity Checking Self-Preference Evaluations

1️⃣ 一句话总结

这篇论文发现，大语言模型在作为评估者时表现出的‘自恋’倾向（即偏爱自己的输出），很大程度上是由于评估任务本身难度造成的混淆，而非真正的自我偏好，并提出了一个纠正性基线方法，显著降低了测量误差。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17087

arXiv 提交日期: 2026-01-23

llm agents benchmark agent evaluation user simulation evaluation bias human-ai interaction robustness

迷失在模拟中：LLM模拟用户在智能体评估中并非人类用户的可靠代理 / Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations

1️⃣ 一句话总结

这篇论文通过跨国用户研究发现，用大语言模型模拟用户来评估AI助手性能并不可靠，它会错误估计AI的真实能力，并且对不同语言和文化背景的人群存在系统性偏差，可能导致评估结果失真。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.17768

1️⃣ 一句话总结

arXiv ID: 2604.11589

1️⃣ 一句话总结

arXiv ID: 2603.10287

1️⃣ 一句话总结

arXiv ID: 2601.22548

1️⃣ 一句话总结

arXiv ID: 2601.17087

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.17768 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11589 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10287 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.22548 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17087 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.17768

arXiv ID: 2604.11589

arXiv ID: 2603.10287

arXiv ID: 2601.22548

arXiv ID: 2601.17087