arXiv ID:
2604.07747
arXiv 提交日期: 2026-04-09
通过分布对齐提示合成与后向提示退火缓解数学RLVR中的分布锐化问题 / Mitigating Distribution Sharpening in Math RLVR via Distribution-Aligned Hint Synthesis and Backward Hint Annealing
1️⃣ 一句话总结
这篇论文提出了一种结合分布对齐提示合成与后向提示退火的新方法,旨在解决数学推理强化学习中提示教学与无提示评估之间的分布不匹配问题,从而在提升模型简单问题准确率的同时,也显著改善了其在复杂问题上的整体推理能力。