🤖 系统
11-30 17:37
📄 论文总结
LongRM:揭示并突破奖励建模的上下文边界 / LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling
1️⃣ 一句话总结
本文提出了一个专门评估长上下文奖励模型的新基准Long-RewardBench,并开发了一种多阶段训练方法,使模型在长对话场景中既能准确判断回答与上下文的关联性,又保持了短文本处理能力,其8B参数模型性能甚至超越了一些70B级模型。