arXiv ID:
2603.24375
arXiv 提交日期: 2026-03-25
迈向数学错误纠正中AI导师的奖励建模 / Towards Reward Modeling for AI Tutors in Math Mistake Remediation
1️⃣ 一句话总结
这篇论文提出了一种新方法来评估和提升AI数学导师的教学质量,通过分析人类偏好数据并合成对比样本,训练出能准确判断导师回复是否有效帮助学生发现和改正错误的奖励模型。