← 返回列表

🤖 系统

📄 Abstract - VALUE DRIFTS: TRACING VALUE ALIGNMENT DURING LLM POST-TRAINING

⏳ 正在获取摘要...

顶级标签: llm

📄 论文总结

价值漂移：追踪LLM后训练中的价值对齐 / VALUE DRIFTS: TRACING VALUE ALIGNMENT DURING LLM POST-TRAINING

1️⃣ 一句话总结

本研究系统分析了大型语言模型在后训练过程中价值对齐的动态变化，发现监督微调阶段主导模型价值观形成，而偏好优化阶段通常仅维持而非显著改变这些价值观。

2️⃣ 论文创新点

1. 价值漂移追踪框架

创新点：提出量化分析模型在后训练过程中价值观动态变化的方法，超越传统的静态对齐评估
区别/改进：通过追踪训练中间步骤的立场变化来分析价值观演变，改进了对训练动态的理解
意义：为理解模型价值观形成过程提供新视角，有助于开发更透明的训练方法

2. 训练阶段影响分析

创新点：通过实验分析SFT和偏好优化阶段对价值对齐的不同贡献
区别/改进：分离了后训练算法和数据集的影响，测量了训练过程中价值漂移的幅度和时间
意义：发现SFT阶段通常建立模型的基本价值观，而后续的偏好优化很少重新调整这些价值观

3. 可控偏好数据集

创新点：使用合成偏好数据集来精确控制价值观的操纵
区别/改进：即使偏好数据保持不变，不同的偏好优化算法也会导致不同的价值对齐结果
意义：提供了对算法选择如何影响价值对齐的深入理解

3️⃣ 主要结果与价值

结果亮点

SFT会强烈初始化模型价值观，导致早期价值漂移，不同数据集赋予模型不同的价值特征
使用流行数据集进行偏好优化后，模型在SFT阶段建立的立场分布基本保持不变，仅观察到微小波动
在合成偏好数据集上，PPO算法能有效保留SFT阶段学习的价值观，产生最小的价值漂移

实际价值

为数据筛选和算法选择提供依据，以改进模型与人类价值观的对齐
揭示了SFT阶段是塑造模型价值观的关键，为模型价值观定制提供指导
帮助避免算法单一化风险，提高LLM对齐过程中对人类价值多样性的包容性

4️⃣ 术语表

价值对齐：使LLM的行为与特定人类价值体系保持一致的过程，是AI安全和伦理的核心目标
监督微调(SFT)：后训练的第一阶段，使用精心策划的指令数据集对模型进行微调
价值漂移：模型在训练过程中表达价值观的转变
立场：模型对特定价值负载提示所采取的具体立场，分为支持、中立、反对三类
直接偏好优化(DPO)：通过重新参数化奖励函数直接优化策略模型的偏好优化方法
漂移幅度：衡量两个模型检查点之间，对于给定主题和立场，预期立场概率的变化差异
漂移时间：衡量模型在训练轨迹中，其预期立场概率达到极值所需训练步骤的比例

📄 打开原文 PDF