arXiv ID:
2606.18709
大语言模型难以衡量能区分不同熟练水平学生的试题特性——阅读理解评估中题目区分度的研究 / LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment
1️⃣ 一句话总结
这项研究测试了42种大语言模型,发现它们无法准确判断考试题目能否有效区分高低水平学生:直接预测题目区分度时效果很差,而通过模拟学生答题来计算区分度也只能提供有限参考,表明当前AI在评估测验质量方面还存在明显短板。