🤖 系统
11-30 17:47
📄 论文总结
价值漂移:追踪大语言模型后训练过程中的价值对齐 / Value Drifts: Tracing Value Alignment During LLM Post-Training
1️⃣ 一句话总结
这篇论文研究发现,大语言模型的价值取向主要是在监督微调阶段形成的,后续的偏好优化阶段很难改变已建立的价值,且不同优化算法对价值对齐的影响不同,为改进模型与人类价值观的对齐提供了关键指导。
请先 登录 后再提交论文
价值漂移:追踪大语言模型后训练过程中的价值对齐 / Value Drifts: Tracing Value Alignment During LLM Post-Training
这篇论文研究发现,大语言模型的价值取向主要是在监督微调阶段形成的,后续的偏好优化阶段很难改变已建立的价值,且不同优化算法对价值对齐的影响不同,为改进模型与人类价值观的对齐提供了关键指导。