arXiv ID:
2603.18642
arXiv 提交日期: 2026-03-19
通过精确的二十一点预言机评估掩蔽动作环境中的无模型策略优化 / Evaluating Model-Free Policy Optimization in Masked-Action Environments via an Exact Blackjack Oracle
1️⃣ 一句话总结
这篇论文利用无限牌堆的二十一点游戏作为精确可验证的基准,通过一个精确的动态规划预言机评估了三种无模型优化算法的性能,发现尽管奖励曲线平滑,但算法在具体决策上仍存在显著错误,并强调了使用精确基准和负面对照组来避免误判算法性能的重要性。