🤖 系统
11-30 17:47
📄 论文总结
价值漂移:追踪大语言模型后训练过程中的价值对齐 / Value Drifts: Tracing Value Alignment During LLM Post-Training
1️⃣ 一句话总结
这篇论文研究发现,大语言模型的价值取向主要是在监督微调阶段形成的,后续的偏好优化阶段很难改变已建立的价值,且不同优化算法对价值对齐的影响不同,为改进模型与人类价值观的对齐提供了关键指导。
请先 登录 后再提交论文
价值漂移:追踪大语言模型后训练过程中的价值对齐 / Value Drifts: Tracing Value Alignment During LLM Post-Training
这篇论文研究发现,大语言模型的价值取向主要是在监督微调阶段形成的,后续的偏好优化阶段很难改变已建立的价值,且不同优化算法对价值对齐的影响不同,为改进模型与人类价值观的对齐提供了关键指导。
SimKO:简单的Pass@K策略优化 / SimKO: Simple Pass@K Policy Optimization
这篇论文提出了一种名为SimKO的新方法,通过非对称地调整模型在正确和错误答案上的概率分布,有效缓解了现有强化学习方法中过度关注单一答案而忽视其他可能性的问题,从而在数学和逻辑推理任务中显著提升了模型探索多种正确答案的能力。