arXiv ID:
2604.17747
基于零阶策略优化的高效联邦人类反馈强化学习 / Efficient Federated RLHF via Zeroth-Order Policy Optimization
1️⃣ 一句话总结
本文提出了一种名为Par-S^2ZPO的高效联邦学习算法,让资源有限的设备(如手机、传感器)也能协同进行人类反馈强化学习,它在保证学习效果的同时,大幅降低了通信和计算开销,比现有方法更快更好。