🤖 系统
10-27 21:52
📄 论文总结
大规模法律嵌入基准(MLEB) / Massive Legal Embedding Benchmark (MLEB)
1️⃣ 一句话总结
本文提出了目前最大、最多样化的开源法律信息检索基准MLEB,包含10个专家标注的数据集,覆盖多个司法管辖区、文档类型和任务类型,并通过系统评估验证了法律领域专用嵌入模型相比通用模型的性能优势。
2️⃣ 论文创新点
1. MLEB基准构建
- 创新点:创建了最大、最多样化的开源法律信息检索基准
- 区别/改进:填补了开源法律信息检索领域的司法管辖区空白
- 意义:为法律嵌入模型的评估提供了更全面可靠的基准
2. 多司法管辖区覆盖
- 创新点:包含来自美国、英国、欧盟、澳大利亚、爱尔兰和新加坡六个司法管辖区数据集
- 区别/改进:克服了现有法律嵌入评估集局限于特定司法系统的缺陷
- 意义:使评估结果更具普适性和现实应用价值
3. 专家标注数据构建
- 创新点:7个全新数据集由领域专家手工标注或改编现有专家标注数据构建
- 区别/改进:提高了数据质量和标注准确性
- 意义:确保评估结果的可信度和实用性
4. 法律领域专用嵌入模型验证
- 创新点:验证了经过法律领域专门优化的嵌入模型在信息检索任务中的性能优势
- 区别/改进:通过法律文档的专门训练和微调,提升了法律信息检索性能
- 意义:证明了领域适应性对于嵌入模型在专业领域性能的重要性,挑战了通用模型在所有领域都最优的假设
3️⃣ 主要结果与价值
结果亮点
- Kanon 2 Embedder模型以86.03的NDCG@10得分排名第一
- 法律领域优化模型(如Kanon 2 Embedder、Voyage Law 2)在MLEB上表现突出
- 通用检索任务表现优秀的模型(如Gemini排名第一)在法律领域检索中表现不同(Gemini仅排第七)
- 即使模型规模较小,经过法律优化的模型也能取得优异表现
实际价值
- 为法律AI模型的性能比较提供了权威标准
- 推动法律文本嵌入技术的发展和应用
- 为法律领域选择合适的嵌入模型提供了实证依据
- 解决了传统搜索引擎未能有效回答用户税务问题的挑战
4️⃣ 术语表
- MLEB:大规模法律嵌入基准,包含10个评估数据集,用于评估嵌入模型在法律领域的性能
- NDCG@10:标准化折损累计增益@10,信息检索系统中常用的评价指标,衡量前10个搜索结果排序质量
- Singaporean Judicial Keywords:一个由新加坡法院判决构建的数据集,使用真实世界法律专家注释的关键词,用于评估法律概念理解
- GDPR Holdings Retrieval:一个评估集,包含500个事实模式与欧洲监管和法院裁决的配对,用于测试根据事实检索裁决的能力
- SCALR:预存在的评估集,将美国最高法院问题与法院最终裁决描述配对