arXiv ID:
2602.15532
arXiv 提交日期: 2026-02-17
量化大语言模型评估中的构念效度 / Quantifying construct validity in large language model evaluations
1️⃣ 一句话总结
这篇论文提出了一种新的‘结构化能力模型’,通过结合潜在因子模型和缩放定律的优点,从大量基准测试结果中提取出可解释且可泛化的模型能力,从而更准确地评估大语言模型的真实水平,避免仅依赖有缺陷的基准分数。