📄 论文总结
基于评分标准支架的强化学习框架
Rubric-Scaffolded Reinforcement Learning Framework
1️⃣ 一句话总结
RuscaRL是一种新颖的强化学习框架,通过引入结构化评分标准作为显式支架和可验证奖励,有效解决了大型语言模型在开放域任务中的探索瓶颈问题,显著提升了模型在医疗和STEM领域的性能。
2️⃣ 论文创新点
1. 评分标准支架强化学习
- 创新点是什么:首创将结构化评分标准集成到强化学习训练中,作为显式指导支架和可验证奖励机制
- 与已有方法的区别/改进:解决了传统RL方法在缺乏真实标签的通用任务中无法提供细粒度奖励的问题,相比依赖标准答案的方法更适用于开放任务
- 为什么有意义:在医疗咨询、开放域问答等复杂推理任务中显示出显著效果,如HealthBench-500分数从23.6提升至50.3
2. 双重支架机制
- 创新点是什么:结合组内差异化和步骤间衰减两种机制,动态调整支架强度
- 与已有方法的区别/改进:通过线性组内差异化策略增加采样多样性,使用S形衰减函数防止模型过度依赖外部指导
- 为什么有意义:有效解决了RL训练中的探索不足、陷入局部最优和能力边界崩溃问题
3. 基于评分标准的奖励函数
- 创新点是什么:通过汇总多维度评分向量并归一化得到标量奖励
- 与已有方法的区别/改进:相比整体LLM评分方法更稳健可靠,适用于无标准答案的开放任务
- 为什么有意义:提供更精细、可验证的训练信号,满足复杂任务的多维度评估需求
3️⃣ 主要结果与价值
实验结果亮点
- 在HealthBench-500上达到50.3分,相比基线方法提升超过100%
- 在LLMEval-Med和MedQA数据集上分别取得61.17和63.50的最佳性能
- 在不同规模的Qwen和Llama模型系列上都显示出显著改进效果
- 在STEM领域基准测试中获得一致性能增益
实际应用价值
- 为开放域任务提供了有效的RL训练框架,突破探索瓶颈
- 可应用于智能体系统、开放域问答和指令跟随等多种任务场景
- 支持跨模型泛化,适用于不同基础和规模的语言模型
- 提供细粒度的可验证奖励机制,提升训练稳定性和可靠性
4️⃣ 术语表
- RuscaRL:Rubric-Scaffolded Reinforcement Learning,一种使用评分标准作为支架和奖励的强化学习框架
- RLVR:Reinforcement Learning from Verifiable Rewards,基于可验证奖励的强化学习,用于训练LLM解决可验证问题
- HealthBench-500:具有复杂多维度评估标准的挑战性医疗数据集,包含500个样本,用于评估模型性能
- GRPO:Group Relative Policy Optimization,一种用于语言模型训练的RL算法,通过基于组的优势估计消除对价值模型的需求
- 评分标准(Rubric):结构化清单式评估系统,包含多个可验证的多维度标准