arXiv ID:
2602.01705
超越模式激发:通过潜在扩散推理器实现多样性保持的强化学习 / Beyond Mode Elicitation: Diversity-Preserving Reinforcement Learning via Latent Diffusion Reasoner
1️⃣ 一句话总结
这篇论文提出了一种名为LaDi-RL的新方法,它通过在一个连续的潜在空间中进行扩散引导的探索来优化大语言模型的推理过程,有效避免了传统方法中因强化学习导致思维链多样性下降的问题,从而在代码生成和数学推理任务上取得了更好的性能。