arXiv ID:
2604.13618
arXiv 提交日期: 2026-04-15
C2:一种基于二元偏好的、可扩展的规则增强奖励建模方法 / C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences
1️⃣ 一句话总结
本文提出了一种名为C2的新框架,它通过让奖励模型与一个仅从二元偏好数据训练出的规则生成器进行‘批判性合作’,无需额外的人工标注就能生成更可靠的评估规则,从而显著提升了奖励模型的判断准确性和可扩展性。