arXiv ID:
2604.27733
arXiv 提交日期: 2026-04-30
注意差距:偏好学习中的结构感知一致性 / Mind the Gap: Structure-Aware Consistency in Preference Learning
1️⃣ 一句话总结
这篇论文揭示了直接偏好优化(DPO)等主流方法在理论上存在一致性缺陷,并提出了一种基于语义距离动态调整边界的结构感知偏好学习目标(SA-DPO),从而在有限模型容量下实现更可靠的对齐效果。