arXiv ID:
2601.13761
DARC:用于大语言模型进化的解耦非对称推理课程 / DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution
1️⃣ 一句话总结
这篇论文提出了一个名为DARC的两阶段自学习框架,通过先训练提问模型生成难度可控的问题,再让一个拥有文档访问权限的教师模型指导无文档访问权限的学生解答模型,有效解决了大语言模型在自我对弈训练中的不稳定性问题,从而在多个推理任务上显著提升了模型性能,且无需人工标注数据。