arXiv ID:
2603.09344
arXiv 提交日期: 2026-03-10
在状态转移不确定性下的鲁棒正则化策略迭代 / Robust Regularized Policy Iteration under Transition Uncertainty
1️⃣ 一句话总结
这篇论文提出了一种名为RRPI的离线强化学习方法,通过将环境动态建模为不确定集并优化最坏情况下的策略,有效解决了因数据分布偏移导致的性能下降问题,使智能体能够避免执行不可靠的、超出训练数据范围的危险动作。