arXiv ID:
2606.25526
arXiv 提交日期: 2026-06-24
低方差信任域优化:合作多智能体强化学习中的独立智能体与顺序更新 / Low Variance Trust Region Optimization with Independent Actors and Sequential Updates in Cooperative Multi-agent Reinforcement Learning
1️⃣ 一句话总结
本文提出一种新的裁剪目标函数,用于解决合作多智能体强化学习中,独立智能体顺序更新时优势函数估计方差过高的问题,从而在确保稳定收敛的同时,在多个基准任务上取得了优于现有方法的性能。