arXiv ID:
2602.11902
缓解基于参考的偏好优化中的不匹配问题 / Mitigating Mismatch within Reference-based Preference Optimization
1️⃣ 一句话总结
这篇论文提出了一种名为HyPO的改进方法,通过有条件地调整参考模型在训练中的作用,解决了现有偏好优化算法在处理‘悲观’数据时过早停止学习的问题,从而在保持训练稳定的同时提升了模型的最终性能。