arXiv ID:
2605.10816
arXiv 提交日期: 2026-05-11
非马尔可夫强化学习中的策略梯度方法 / Policy Gradient Methods for Non-Markovian Reinforcement Learning
1️⃣ 一句话总结
本文提出了一种名为ASMPG的新算法,通过联合优化智能体的内部状态表示和决策策略,解决了在状态和奖励完全依赖历史交互的非马尔可夫环境中强化学习的问题,并在理论上证明了该算法的收敛性,实验显示其优于传统的基于预测状态表示的方法。