arXiv ID:
2602.02495
arXiv 提交日期: 2026-02-02
面向冲突目标的无奖励对齐方法 / Reward-free Alignment for Conflicting Objectives
1️⃣ 一句话总结
这篇论文提出了一种名为RACO的新方法,它无需依赖复杂的奖励模型,就能直接利用成对偏好数据来训练大语言模型,有效解决多个相互冲突的目标(如摘要质量和安全性)之间的权衡问题,并在多种主流模型上取得了更好的综合平衡效果。