arXiv ID:
2603.24999
arXiv 提交日期: 2026-03-26
利用新型可扩展性系数高效检测不良基准测试项 / Efficient Detection of Bad Benchmark Items with Novel Scalability Coefficients
1️⃣ 一句话总结
这篇论文提出了一种名为‘带符号等渗R²’的新方法,它能像一把快速扫描的尺子,从成千上万的测试题中高效、准确地揪出那些有问题的题目(比如答案错误、表述模糊或偏离考察目标),而无需事先假设数据的具体数学形式,特别适合处理人工智能评估中常见的数据量少但题目多的复杂情况。