arXiv ID:
2512.02580
arXiv 提交日期: 2025-12-02
从模仿到判别:一种增强跨领域推理任务的通用课程优势机制 / From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks
1️⃣ 一句话总结
这篇论文提出了一个名为CAPO的智能训练方法,它像老师教学生一样,先让大语言模型模仿好的例子打好基础,再逐步学习区分好坏,从而在数学和图形界面等多种复杂推理任务上取得更稳定、更出色的表现。