arXiv ID:
2603.12110
驯服对抗者:通过分数目标实现稳定的极小极大深度确定性策略梯度 / Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives
1️⃣ 一句话总结
这篇论文提出了一种新的强化学习方法,通过引入一个平衡任务表现与干扰强度的分数目标,让智能体在与模拟“对手”的对抗训练中,学习到更稳定、更能抵抗环境干扰和模型不确定性的控制策略。