arXiv ID:
2605.10293
面向安全离线强化学习的鲁棒概率屏蔽方法 / Robust Probabilistic Shielding for Safe Offline Reinforcement Learning
1️⃣ 一句话总结
本文提出一种称为“概率屏蔽”的技术,将安全策略改进方法与动作空间限制相结合,使得离线强化学习在仅使用固定数据集的情况下,也能高概率地保证所学策略的安全性和性能,尤其在数据量少时效果显著。