arXiv ID:
2602.10917
arXiv 提交日期: 2026-02-11
通过衰减安全裕度实现在线约束马尔可夫决策过程的近恒定强违反与末次迭代收敛 / Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins
1️⃣ 一句话总结
本文提出了一种名为FlexDOME的新算法,首次在在线安全强化学习中同时实现了近乎恒定的强约束违反、次线性的强奖励遗憾以及末次迭代收敛,解决了现有方法在约束违反和收敛稳定性上的固有矛盾。