DynaCF: Mitigating Shortcut Learning in Reward Models via Dynamic Counterfactual Sensitivity

📄 Abstract - DynaCF: Mitigating Shortcut Learning in Reward Models via Dynamic Counterfactual Sensitivity

Reward models trained from pairwise preferences often exploit superficial shortcut cues rather than learning true response quality. We propose DynaCF, a dynamic reweighting framework for mitigating shortcut learning in reward model training. Unlike static shortcut heuristics, DynaCF measures shortcut sensitivity online during optimization by applying semantics-preserving counterfactual perturbations and tracking the resulting margin shifts and preference flips under the current model. Samples with higher shortcut sensitivity are dynamically downweighted in the Bradley-Terry objective, encouraging the model to rely less on superficial patterns and more on task-relevant preference signals. Extensive experiments show that DynaCF consistently improves robustness in preference modeling.

DynaCF：通过动态反事实敏感性减轻奖励模型中的捷径学习 / DynaCF: Mitigating Shortcut Learning in Reward Models via Dynamic Counterfactual Sensitivity

1️⃣ 一句话总结

这篇论文提出了一种名为DynaCF的新方法，通过在训练过程中动态评估样本对捷径特征的敏感程度，并降低这类样本的权重，从而迫使奖励模型更关注任务相关的真正偏好信号，而不是依赖表面线索，最终显著提升了偏好建模的鲁棒性。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

获取最新论文摘要