arXiv ID:
2606.04335
arXiv 提交日期: 2026-06-03
连续时间鲁棒马尔可夫决策过程的策略梯度方法 / Policy Gradient for Continuous-Time Robust Markov Decision Processes
1️⃣ 一句话总结
本文首次将策略梯度算法扩展到连续时间下的鲁棒马尔可夫决策过程,通过设计双重循环优化器和平均场优化器,分别实现了在理想和采样环境下的线性收敛与高样本效率,并在具有神经网络动力学的连续时间问题上验证了方法的有效性。