arXiv ID:
2512.05591
arXiv 提交日期: 2025-12-05
熵比率裁剪:一种用于稳定强化学习的软全局约束 / Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为‘熵比率裁剪’的新方法,通过控制新旧策略之间熵的全局变化来稳定大语言模型的强化学习训练过程,有效解决了因策略分布偏移导致的训练不稳定问题。