arXiv ID:
2602.10019
arXiv 提交日期: 2026-02-10
ADORA:基于动态优势估计的强化学习推理模型训练 / ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为ADORA的新方法,它通过动态评估训练样本的价值来改进强化学习中的策略优化,从而让推理模型在数学和几何等复杂任务上学得更快、更稳定。