arXiv ID:
2606.05967
arXiv 提交日期: 2026-06-04
基于线性函数逼近的TD(0)算法的快速鲁棒收敛率:通用学习步长与独立同分布样本 / Fast and Robust Convergence Rate for TD(0) with Linear Function Approximation, Universal Learning Steps and I.I.D. Samples
1️⃣ 一句话总结
本文证明了在独立同分布样本下,使用恒定学习步长和平均方法的TD(0)强化学习算法,其均方误差能以最优的1/k速度收敛,且该收敛率不依赖问题中协方差矩阵的最小特征值,因此对病态问题具有鲁棒性,同时论文还提出了一种在强混合条件下收敛更快的改进版本PCTD(0)。