arXiv ID:
2605.14423
arXiv 提交日期: 2026-05-14
协作但个性化的策略训练:单时间尺度联邦Actor-Critic方法 / Collaborative Yet Personalized Policy Training: Single-Timescale Federated Actor-Critic
1️⃣ 一句话总结
本文提出了一种联邦式强化学习框架,让多个智能体在共享一个公共线性子空间表示的同时,各自保留个性化的策略组件,并通过单时间尺度更新算法高效协作训练,理论证明其收敛速度随智能体数量线性提升,实验在异构环境任务中优于传统方法。