arXiv ID:
2606.04396
读取轨迹,引导路径:面向扩散语言模型的轨迹感知强化学习 / Read the Trace, Steer the Path: Trajectory-Aware Reinforcement Learning for Diffusion Language Models
1️⃣ 一句话总结
提出了一种名为CAPR的新型强化学习算法,通过巧妙利用扩散语言模型生成过程中的“去噪轨迹”信息(即各位置标记逐渐确定的过程),在不进行昂贵树搜索的情况下,实现类似树搜索的精细奖励分配,从而以更低的计算成本显著提升模型在数学推理等任务上的性能。