arXiv ID:
2605.26078
arXiv 提交日期: 2026-05-25
熵正则化强化学习中Wasserstein策略梯度的全局收敛性 / Global Convergence of Wasserstein Policy Gradient for Entropy-Regularized Reinforcement Learning
1️⃣ 一句话总结
本文从理论层面证明了,在熵正则化强化学习框架下,Wasserstein策略梯度方法通过利用贝尔曼递归结构而非传统凸性,能够实现全局收敛,并提出了一个分布式的Polyak-Łojasiewicz条件来刻画其收敛行为。