arXiv ID:
2602.14488
面向低资源信息检索的多语言数据集构建的BETA标注框架 / BETA-Labeling for Multilingual Dataset Construction in Low-Resource IR
1️⃣ 一句话总结
本研究提出了一个结合多个大语言模型进行标注和验证的BETA框架,用于构建低资源语言的信息检索数据集,并揭示了通过机器翻译跨语言复用数据集存在语义保留不一致和语言依赖性偏见等风险。