arXiv ID:
2602.11898
arXiv 提交日期: 2026-02-12
基准幻觉:大语言模型之间的分歧及其科学后果 / Benchmark Illusion: Disagreement among LLMs and Its Scientific Consequences
1️⃣ 一句话总结
这篇论文揭示了一个‘基准幻觉’现象:在主流评测中得分相近的大语言模型,实际上对大量问题存在隐藏的严重分歧,当这些模型被用于科研数据标注时,模型选择会成为一个严重影响研究结果可复现性的隐蔽变量。