arXiv ID:
2604.26360
arXiv 提交日期: 2026-04-29
面向缓解奖励作弊的不确定性感知奖励折扣方法 / Uncertainty-Aware Reward Discounting for Mitigating Reward Hacking
1️⃣ 一句话总结
该论文提出一种同时考虑模型预测不确定性和人类偏好不确定性的双重不确定性奖励框架,通过自适应调节动作选择来抑制强化学习中的奖励作弊行为,实验表明该方法能将作弊行为减少93.7%,并提升训练稳定性。