arXiv ID:
2603.22563
基于解耦奖励建模的隐私保护人类反馈强化学习 / Privacy-Preserving Reinforcement Learning from Human Feedback via Decoupled Reward Modeling
1️⃣ 一句话总结
这篇论文提出了一种新的隐私保护方法,通过只对学习用户偏好的‘奖励模型’部分进行隐私处理,来训练大型语言模型,从而在保护用户敏感数据的同时,有效提升了模型与人类价值观对齐的性能。