arXiv ID:
2603.27874
arXiv 提交日期: 2026-03-29
相对时序差分学习的稳定性与敏感性分析:扩展版 / Stability and Sensitivity Analysis of Relative Temporal-Difference Learning: Extended Version
1️⃣ 一句话总结
这篇论文证明了在使用线性函数近似时,通过巧妙选择基线分布,相对时序差分学习算法在任何折扣因子下都能保持稳定,并且其估计结果的偏差和协方差在折扣因子接近1时也不会无限增大。