🤖 系统
11-30 17:39
📄 论文总结
HUME:衡量文本嵌入任务中人类与模型性能差距 / HUME: Measuring the Human-Model Performance Gap in Text Embedding Tasks
1️⃣ 一句话总结
这篇论文提出了一个名为HUME的评估框架,通过测量人类在16种文本嵌入任务上的表现,发现当前最佳模型平均仅比人类表现高出2.5%,但在低资源语言任务中模型仍存在明显不足,为理解模型能力提供了重要参考基准。