arXiv ID:
2605.26070
arXiv 提交日期: 2026-05-25
谁说的:基于人机协作的多语言文本说话人属性分类标注方法 / WhoSaidIt: Human-LLM Collaborative Annotation for Text-Based Multilingual Speaker-Attribute Classification
1️⃣ 一句话总结
本文提出一种人类与大语言模型协作的标注框架,通过迭代对话让模型提炼专家标注理由、并针对分歧样本重点修正,从而在资源有限的情况下更稳定地为多语言文本中的说话人属性(如性别、社会身份等)打标签,并构建了涵盖9种属性的多语言数据集WhoSaidIt,验证了该方法能有效捕捉跨语言标注差异,同时揭示了大模型在此类任务中的能力与局限。