arXiv ID:
2512.13106
TraPO:一种用于提升大语言模型推理能力的半监督强化学习框架 / TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning
1️⃣ 一句话总结
这篇论文提出了一种名为TraPO的半监督强化学习方法,它巧妙地结合少量标注数据和大量未标注数据来训练大语言模型进行推理,在显著降低数据标注成本的同时,有效防止了模型训练崩溃,并在多个数学推理任务上取得了超越全监督方法的性能。