arXiv ID:
2602.16629
arXiv 提交日期: 2026-02-18
平均奖励马尔可夫决策过程中差分时序差分学习的几乎必然收敛性 / Almost Sure Convergence of Differential Temporal Difference Learning for Average Reward Markov Decision Processes
1️⃣ 一句话总结
这篇论文为强化学习中用于评估长期性能的平均奖励算法提供了更实用的理论保证,证明了差分时序差分学习在更贴近实际应用的条件下也能稳定收敛。