arXiv ID:
2509.06949
arXiv 提交日期: 2025-09-08
面向扩散大语言模型的强化学习框架革新 / Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为TraceRL的强化学习框架,通过引入轨迹感知训练和扩散价值模型,显著提升了扩散语言模型在数学推理和代码生成等复杂任务上的性能,并发布了开源工具以支持实际应用。