arXiv ID:
2605.28802
arXiv 提交日期: 2026-05-27
人类标注变异性作为稳定信号:通过跨标注者偏好优化学习标注者特有的解释行为 / Human Label Variation as Stable Signal: Learning Annotator-Specific Explanation Behavior via Cross-Annotator Preference Optimization
1️⃣ 一句话总结
本文提出一种名为跨标注者偏好优化(CAPO)的方法,让大语言模型从不同标注者对同一文本的不同解释中学习每个人的独特偏好,从而生成更符合特定标注者风格的标签和解释,解决了传统方法只能学到“平均”行为的问题。