arXiv ID:
2605.14440
arXiv 提交日期: 2026-05-14
综合POMDP策略:通过学习结合采样与模型检测 / Synthesizing POMDP Policies: Sampling Meets Model-checking via Learning
1️⃣ 一句话总结
本文提出一种新框架,通过结合采样、自动机学习和模型检测技术,为部分可观测马尔可夫决策过程合成带有形式化正确性保证的有限状态控制器,在特定条件下比纯形式化方法更具可扩展性。