arXiv ID:
2606.09043
arXiv 提交日期: 2026-06-08
DynaCF:通过动态反事实敏感性减轻奖励模型中的捷径学习 / DynaCF: Mitigating Shortcut Learning in Reward Models via Dynamic Counterfactual Sensitivity
1️⃣ 一句话总结
这篇论文提出了一种名为DynaCF的新方法,通过在训练过程中动态评估样本对捷径特征的敏感程度,并降低这类样本的权重,从而迫使奖励模型更关注任务相关的真正偏好信号,而不是依赖表面线索,最终显著提升了偏好建模的鲁棒性。