arXiv ID:
2602.20404
arXiv 提交日期: 2026-02-23
κ-探索者:一个用于马尔可夫决策过程中主动模型估计的统一框架 / $κ$-Explorer: A Unified Framework for Active Model Estimation in MDPs
1️⃣ 一句话总结
这篇论文提出了一个名为κ-探索者的统一算法框架,它通过智能地分配探索资源来高效学习马尔可夫决策过程的环境模型,在平衡探索未知区域和降低模型估计误差方面优于现有方法。