arXiv ID:
2605.18078
arXiv 提交日期: 2026-05-18
多智能体策略梯度中的均衡选择:基于对手感知的盆地区域进入机制 / Equilibrium Selection in Multi-Agent Policy Gradients via Opponent-Aware Basin Entry
1️⃣ 一句话总结
本文提出了一种通过对手感知的更新机制,帮助多智能体系统在策略梯度训练中更大概率进入合作性更优的均衡状态,并在进入后恢复标准算法以保留局部收敛保证。