arXiv ID:
2604.27405
arXiv 提交日期: 2026-04-30
超越均值:面向大模型评估的模型内可靠变化检测 / Beyond the Mean: Within-Model Reliable Change Detection for LLM Evaluation
1️⃣ 一句话总结
本文引入临床心理学中的可靠变化指数(RCI),对LLM版本升级(如Llama 3→3.1和Qwen 2.5→3)进行逐题比较,发现平均准确率的小幅提升掩盖了大规模的双向性能波动(有的题目大幅进步,有的严重退步),且多数题目变化无实质意义,因此建议在汇报平均分数时必须同时报告“变化率”指标。