arXiv ID:
2604.08174
arXiv 提交日期: 2026-04-09
用于离线多智能体强化学习的价值引导均值流方法 / Value-Guidance MeanFlow for Offline Multi-Agent Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为VGM²P的新方法,它通过结合全局价值引导和高效的均值流生成模型,让多个AI智能体能够直接从离线数据中快速学习协作策略,同时避免了传统方法对参数敏感和计算效率低的问题。