arXiv ID:
2605.21557
arXiv 提交日期: 2026-05-20
自适应批量缩放实现可扩展的在线强化学习 / Scalable On-Policy Reinforcement Learning via Adaptive Batch Scaling
1️⃣ 一句话总结
本文提出自适应批量缩放方法,通过动态调整训练数据批量大小(早期用小批量保持灵活学习,后期用大批量稳定收敛),破解了强化学习中大批量训练会导致性能下降的传统难题,从而在Atari游戏上实现了更好的性能。