arXiv ID:
2606.25593
arXiv 提交日期: 2026-06-24
结构化马尔可夫决策过程中的低复杂度策略镶嵌 / Low-Complexity Policy Tessellations in Structured Markov Decision Processes
1️⃣ 一句话总结
本文发现,在结构化马尔可夫决策过程中,最优策略本身比对应的价值函数更简单,并提出了一种直接学习策略边界的方法,这种方法比传统的强化学习更准确、更稳定,且错误率下降更快,特别适用于库存控制和排队管理等实际问题。