arXiv ID:
2603.02577
arXiv 提交日期: 2026-03-03
迈向无参数时间差分学习 / Towards Parameter-Free Temporal Difference Learning
1️⃣ 一句话总结
这篇论文提出了一种使用指数步长调度的新方法,让强化学习中的核心算法——时间差分学习——无需依赖难以获取的问题特定参数,就能在理论和实践中都实现高效稳定的收敛。