arXiv ID:
2602.21765
arXiv 提交日期: 2026-02-25
奖励偏移与截断KL正则化下RLHF的泛化理论 / Generalisation of RLHF under Reward Shift and Clipped KL Regularisation
1️⃣ 一句话总结
这篇论文为基于人类反馈的强化学习(RLHF)建立了一套泛化理论,首次系统分析了因奖励模型训练数据与当前策略不匹配导致的‘奖励偏移’问题,以及因技术实现而引入的‘KL正则项截断误差’,并据此为实际训练中的参数设置和数据分配提供了理论指导。