arXiv ID:
2603.04918
arXiv 提交日期: 2026-03-05
BandPO:通过概率感知边界连接信任区域与比率裁剪,用于大语言模型强化学习 / BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为BandPO的新方法,通过引入一个能根据动作概率动态调整更新范围的‘Band’操作符,解决了现有强化学习算法中固定更新上限会抑制低概率但高价值策略探索的问题,从而在提升模型性能的同时有效防止了策略多样性的过早丧失。