arXiv ID:
2603.21636
arXiv 提交日期: 2026-03-23
硅基官僚主义与AI应试教育:大语言模型基准测试中的污染敏感性与分数置信度 / Silicon Bureaucracy and AI Test-Oriented Education: Contamination Sensitivity and Score Confidence in LLM Benchmarks
1️⃣ 一句话总结
这篇论文指出,当前依赖公开基准测试来评估大语言模型的做法存在风险,因为模型的高分可能源于对测试数据的‘记忆’而非真正的泛化能力,并提出了一个审计框架来量化这种‘应试’污染对分数可信度的影响。