arXiv ID:
2604.14243
arXiv 提交日期: 2026-04-15
具有遗憾和违反保证的悲观对手下的乐观策略学习 / Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees
1️⃣ 一句话总结
这篇论文提出了一种新的强化学习方法,让智能体在与不可控的对手或外部因素互动时,既能高效学习完成任务,又能保证安全约束不被严重违反。