arXiv ID:
2602.15620
arXiv 提交日期: 2026-02-17
STAPO:通过抑制罕见伪标记来稳定大语言模型的强化学习训练 / STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens
1️⃣ 一句话总结
这篇论文发现大语言模型强化学习训练不稳定的根源是极少数‘伪标记’,并提出了STAPO方法,通过选择性屏蔽这些标记的梯度更新,有效提升了训练稳定性和模型在数学推理任务上的表现。