arXiv ID:
2606.25335
arXiv 提交日期: 2026-06-24
停滞神经元:理解多智能体强化学习价值分解方法中的可塑性损失 / Stagnant Neuron: Towards Understanding the Plasticity Loss in Multi-Agent Reinforcement Learning Value Factorization Methods
1️⃣ 一句话总结
本文揭示了多智能体强化学习中价值分解方法性能下降的根源——停滞神经元(即梯度更新极小的神经元),并提出了KNIFE方法,通过将每个停滞神经元替换为由冻结知识单元、重新激活学习单元和补偿单元组成的复合结构,在保留已有合作知识的同时恢复学习能力,实验证明该方法显著优于现有的可塑性注入技术。