arXiv ID:
2602.11674
arXiv 提交日期: 2026-02-12
基准健康指数:一个用于系统性评估大语言模型基准测试的框架 / Benchmark Health Index: A Systematic Framework for Benchmarking the Benchmarks of LLMs
1️⃣ 一句话总结
这篇论文提出了一个名为‘基准健康指数’的数据驱动框架,通过评估基准测试的区分度、可持续性和影响力三个维度,来解决当前大语言模型评测中因分数膨胀和选择性报告导致的可靠性下降问题,为科学选择和管理评测基准提供了量化依据。