arXiv ID:
2603.03191
arXiv 提交日期: 2026-03-03
基于信念空间度量的离线POMDP学习覆盖框架 / A Covering Framework for Offline POMDPs Learning using Belief Space Metric
1️⃣ 一句话总结
这篇论文提出了一个利用信念空间(对隐藏状态的估计分布)的几何结构来分析和改进离线策略评估的新框架,它通过更宽松的假设条件,显著缓解了传统方法中因决策步骤长和记忆要求高而导致的误差爆炸问题,从而提高了样本效率。