🤖 系统
10-27 22:21
📄 论文总结
基于显式人类价值的强化学习 / Reinforcement Learning with Explicit Human Values
1️⃣ 一句话总结
本文提出了RLEV方法,通过将可量化的人类价值信号直接整合到奖励函数中,使大语言模型能够学习价值敏感的终止策略,在保持准确性的同时显著提升响应简洁度和效率。
2️⃣ 论文创新点
1. 显式人类价值强化学习
- 创新点:将可量化的人类价值信号直接整合到奖励函数中,扩展了基于可验证奖励的强化学习框架
- 区别/改进:克服了传统方法对所有正确答案赋予统一奖励的局限,考虑了提示的非均匀价值
- 意义:使语言模型优化直接与人类优先级对齐,在价值加权准确率和响应策略上均取得改进
2. 价值敏感终止策略
- 创新点:模型学会根据提示价值调整响应长度:低价值提示简洁回应,高价值提示详细回应
- 区别/改进:通过价值缩放奖励放大序列结束标记的梯度更新来实现
- 意义:提高模型响应效率,使其能根据问题重要性自适应调整资源分配
3. 加性裁剪奖励函数设计
- 创新点:使用加性且带裁剪的奖励函数形式,根据提示的人类价值动态缩放奖励
- 区别/改进:相比纯乘法奖励函数,能更好地处理高度右偏的价值分布,防止高价值异常值产生过大奖励
- 意义:实现奖励信号与人类价值的精确对齐,是性能提升的关键因素
3️⃣ 主要结果与价值
结果亮点
- 在所有配置下均优于仅基于正确性的基线方法,32B模型平均响应长度从246.9降至98.6个token
- 实现了价值敏感的终止策略,在低价值提示上简洁回应,在高价值提示上详尽回应
- 在噪声价值信号下仍保持鲁棒性,使用任务难度弱标签和预测器生成的值都能持续优于基线
实际价值
- 在考试、医疗诊断等正确性可验证且重要性不均的领域更好地对齐人类优先级
- 显著提高模型响应效率,避免长度崩溃,优化资源分配
- 扩展了在现实场景中的应用范围,使其在仅有启发式价值估计时仍适用
4️⃣ 术语表
- RLEV:Reinforcement Learning with Explicit Human Values,通过将人类定义的价值信号直接整合到奖励函数中来对齐语言模型的方法
- RLVR:Reinforcement Learning with Verifiable Rewards,使用二元正确性奖励在客观领域训练模型的方法
- H-Acc:人类对齐准确率,价值加权的准确率指标,计算为正确响应获得的价值与总可能价值的比率
- Value Density:价值密度,效率指标,衡量每个令牌传递的价值,通过将H-Acc百分比值除以平均响应长度计算
- EOS:结束符,表示序列终止的特殊令牌
- p_e:在给定上下文和选择EOS令牌条件下,最终输出正确的概率
- 人类效用函数:U(x,y)=v(x)×1_correct(y),结合提示价值和回答正确性的效用函数
- 分数预测器:使用监督微调的语言模型为缺乏真实评分的数据集生成伪值