arXiv ID:
2602.17658
arXiv 提交日期: 2026-02-19
MARS:基于边界感知与自我优化的奖励模型构建方法 / MARS: Margin-Aware Reward-Modeling with Self-Refinement
1️⃣ 一句话总结
这篇论文提出了一种名为MARS的新方法,它通过智能识别奖励模型最难判断的模糊样本,并针对性地生成更多类似数据来训练,从而在减少对昂贵人工标注依赖的同时,显著提升了奖励模型的准确性和鲁棒性。