arXiv ID:
2605.13025
arXiv 提交日期: 2026-05-13
带KL正则化的离线双人零和马尔可夫博弈 / Offline Two-Player Zero-Sum Markov Games with KL Regularization
1️⃣ 一句话总结
本文证明,在离线双人零和博弈中,仅使用KL散度正则化就能有效避免数据分布偏移带来的不稳定问题,并提出了两种新方法(ROSE和SOS-MD),将学习纳什均衡的收敛速度从传统方法的平方根级别提升到线性级别。