arXiv ID:
2603.08287
arXiv 提交日期: 2026-03-09
基于高斯过程的连续控制后验采样强化学习:无界状态空间的次线性遗憾界 / Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces
1️⃣ 一句话总结
这篇论文为一种基于高斯过程进行后验采样的强化学习算法提供了严格的理论分析,证明了即使在状态空间无限的情况下,该算法也能实现次线性的性能遗憾上界,解决了先前理论工作的局限性。