arXiv ID:
2511.07317
arXiv 提交日期: 2025-11-10
RLVE:通过自适应可验证环境扩展语言模型的强化学习 / RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments
1️⃣ 一句话总结
这篇论文提出了一种名为RLVE的新方法,通过创建大量能自动调整题目难度的可验证环境来训练语言模型,显著提升了模型在多种推理任务上的表现,且比传统强化学习方法更高效。