arXiv ID:
2604.17892
潜在推理策略优化:面向大语言模型的连续空间推理增强方法 / LEPO: Latent Reasoning Policy Optimization for Large Language Models
1️⃣ 一句话总结
本文提出一种名为LEPO的新框架,通过向大语言模型的潜在推理过程中注入可控随机性(利用Gumbel-Softmax技术),使得模型能在连续思维空间中探索多样化的推理路径,并直接应用强化学习优化这些潜在表示,从而显著提升推理性能。