← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: llm

📄 论文总结

基于评分标准支架的强化学习框架

Rubric-Scaffolded Reinforcement Learning Framework

1️⃣ 一句话总结

RuscaRL是一种新颖的强化学习框架，通过引入结构化评分标准作为显式支架和可验证奖励，有效解决了大型语言模型在开放域任务中的探索瓶颈问题，显著提升了模型在医疗和STEM领域的性能。

2️⃣ 论文创新点

1. 评分标准支架强化学习

创新点是什么：首创将结构化评分标准集成到强化学习训练中，作为显式指导支架和可验证奖励机制
与已有方法的区别/改进：解决了传统RL方法在缺乏真实标签的通用任务中无法提供细粒度奖励的问题，相比依赖标准答案的方法更适用于开放任务
为什么有意义：在医疗咨询、开放域问答等复杂推理任务中显示出显著效果，如HealthBench-500分数从23.6提升至50.3

2. 双重支架机制

创新点是什么：结合组内差异化和步骤间衰减两种机制，动态调整支架强度
与已有方法的区别/改进：通过线性组内差异化策略增加采样多样性，使用S形衰减函数防止模型过度依赖外部指导
为什么有意义：有效解决了RL训练中的探索不足、陷入局部最优和能力边界崩溃问题

3. 基于评分标准的奖励函数

创新点是什么：通过汇总多维度评分向量并归一化得到标量奖励
与已有方法的区别/改进：相比整体LLM评分方法更稳健可靠，适用于无标准答案的开放任务
为什么有意义：提供更精细、可验证的训练信号，满足复杂任务的多维度评估需求

3️⃣ 主要结果与价值

实验结果亮点

在HealthBench-500上达到50.3分，相比基线方法提升超过100%
在LLMEval-Med和MedQA数据集上分别取得61.17和63.50的最佳性能
在不同规模的Qwen和Llama模型系列上都显示出显著改进效果
在STEM领域基准测试中获得一致性能增益

实际应用价值

为开放域任务提供了有效的RL训练框架，突破探索瓶颈
可应用于智能体系统、开放域问答和指令跟随等多种任务场景
支持跨模型泛化，适用于不同基础和规模的语言模型
提供细粒度的可验证奖励机制，提升训练稳定性和可靠性

4️⃣ 术语表

RuscaRL：Rubric-Scaffolded Reinforcement Learning，一种使用评分标准作为支架和奖励的强化学习框架
RLVR：Reinforcement Learning from Verifiable Rewards，基于可验证奖励的强化学习，用于训练LLM解决可验证问题
HealthBench-500：具有复杂多维度评估标准的挑战性医疗数据集，包含500个样本，用于评估模型性能
GRPO：Group Relative Policy Optimization，一种用于语言模型训练的RL算法，通过基于组的优势估计消除对价值模型的需求
评分标准（Rubric）：结构化清单式评估系统，包含多个可验证的多维度标准

📄 打开原文 PDF