arXiv ID:
2604.13833
arXiv 提交日期: 2026-04-15
通过因果分解实现大语言模型的稳健奖励建模 / Robust Reward Modeling for Large Language Models via Causal Decomposition
1️⃣ 一句话总结
这篇论文提出了一种新方法,通过训练一个解码器来重构用户提问的潜在意图,并利用重构误差来指导奖励模型,从而有效减少奖励模型对答案长度、讨好语气等表面线索的依赖,使其更专注于理解用户真实意图,最终在多个任务上提升了模型的判断准确性和输出质量。