arXiv ID:
2604.19569
arXiv 提交日期: 2026-04-21
基于李雅普诺夫认证的直接切换理论在Q学习中的应用 / Lyapunov-Certified Direct Switching Theory for Q-Learning
1️⃣ 一句话总结
本文提出了一种新的理论框架,通过将Q学习的误差过程建模为一种随机切换系统,并利用联合谱半径和构造的李雅普诺夫函数,证明了在固定步长下Q学习算法的有限时间收敛性,且该方法比传统分析得到更紧的收敛速率上界。