arXiv ID:
2602.17062
arXiv 提交日期: 2026-02-19
在多智能体强化学习中保留次优行动以追踪动态最优解 / Retaining Suboptimal Actions to Follow Shifting Optima in Multi-Agent Reinforcement Learning
1️⃣ 一句话总结
本文提出了一种名为S2Q的新方法,通过让智能体在学习时记住多个有价值的备选行动,有效解决了传统多智能体协作算法因环境变化而陷入次优策略的问题,从而提升了系统的适应性和整体表现。