arXiv ID:
2602.04493
arXiv 提交日期: 2026-02-04
PersoDPO:通过多LLM评估实现可扩展的、遵循指令且基于人设的对话偏好优化 / PersoDPO: Scalable Preference Optimization for Instruction-Adherent, Persona-Grounded Dialogue via Multi-LLM Evaluation
1️⃣ 一句话总结
这篇论文提出了一个名为PersoDPO的可扩展训练框架,它通过自动评估多个大语言模型的回复来构建高质量的训练数据,从而让开源对话模型学会生成既符合对话背景、又贴合用户个人特点的回复,效果优于现有方法。