arXiv ID:
2604.13356
arXiv 提交日期: 2026-04-14
用于语言模型推理的同伴预测自训练 / Peer-Predictive Self-Training for Language Model Reasoning
1️⃣ 一句话总结
这篇论文提出了一种无需外部监督的自训练框架,让多个语言模型通过互相预测和整合答案来协同改进,在数学推理任务上有效提升了准确率并缩小了模型内部差距。