arXiv ID:
2604.14142
arXiv 提交日期: 2026-04-15
从条件概率到边缘概率:探索预训练空间中的强化学习 / From $P(y|x)$ to $P(y)$: Investigating Reinforcement Learning in Pre-train Space
1️⃣ 一句话总结
这篇论文提出了一种名为PreRL的新方法,通过直接在预训练空间中优化模型生成答案的整体概率分布(而非依赖于特定问题的条件概率),并结合一种名为“负样本强化”的机制来大幅修剪错误的推理路径、激发模型的反思能力,最终形成一种两阶段训练策略,显著提升了大型语言模型的推理性能。