arXiv ID:
2512.12576
arXiv 提交日期: 2025-12-14
用于语言模型通用推理的耦合变分强化学习 / Coupled Variational Reinforcement Learning for Language Model General Reasoning
1️⃣ 一句话总结
这篇论文提出了一种名为CoVRL的新方法,通过将变分推断和强化学习相结合,让语言模型在无需外部验证的情况下,更高效地生成逻辑连贯的推理过程,从而显著提升了数学和通用推理任务的表现。