arXiv ID:
2603.25674
arXiv 提交日期: 2026-03-26
衡量真正重要的,还是衡量方便的?:基于大语言模型的评分系统对“无关因素”的鲁棒性研究 / Measuring What Matters -- or What's Convenient?: Robustness of LLM-Based Scoring Systems to Construct-Irrelevant Factors
1️⃣ 一句话总结
这篇论文研究发现,一个精心设计的基于大语言模型的自动评分系统,在评估短篇论述题时,对无意义的废话、拼写错误和写作风格变化等无关因素表现出较好的鲁棒性,但会惩罚跑题和大量重复文本,这为未来构建更可靠的AI评分工具提供了积极参考。