arXiv ID:
2603.01571
arXiv 提交日期: 2026-03-02
超越长度扩展:融合广度与深度以优化生成式奖励模型 / Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models
1️⃣ 一句话总结
这篇论文提出了一个名为Mix-GRM的新框架,通过结构化地结合广度推理(覆盖多维度原则)和深度推理(确保判断的实质性严谨性),而非简单地增加推理长度,来显著提升生成式奖励模型的评估性能,使其在多种任务上达到新的最佳水平。