📄 论文总结
UniDoc-Bench:面向多模态检索增强生成的大规模真实基准测试 / UniDoc-Bench: A Large-Scale Realistic Benchmark for Multimodal Retrieval-Augmented Generation
1️⃣ 一句话总结
本文提出了UniDoc-Bench,这是首个为多模态检索增强生成(MM-RAG)构建的大规模真实基准,通过70K真实PDF页面和1,600个人工验证的问答对,系统评估了不同RAG策略的性能,发现文本-图像融合RAG系统始终优于单模态和基于联合多模态嵌入的检索方法。
2️⃣ 论文创新点
1. UniDoc-Bench基准框架
- 创新点:首个为MM-RAG构建的大规模真实基准,基于8个领域的70K真实PDF页面,涵盖文本、表格和图形中的证据
- 区别/改进:解决了当前MM-RAG评估基准的碎片化问题,支持跨四种范式的统一比较
- 意义:为文档中心多模态用例提供了公平、全面的评估框架,推动MM-RAG系统发展
2. 多模态证据链接
- 创新点:从文本、表格和图形中提取并链接证据,生成1,600个多模态QA对,覆盖事实检索、比较、总结和逻辑推理查询
- 区别/改进:克服了OCR丢弃空间和视觉语义的局限性,更好地捕捉文档中的多模态信息
- 意义:使RAG系统能够处理依赖于图表、表格和复杂布局的复杂查询
3. 文本-图像融合RAG策略
- 创新点:分别使用强大的文本和图像检索器进行融合的策略,而非依赖多模态联合嵌入
- 区别/改进:相比单一联合多模态嵌入或单模态方法有显著改进
- 意义:为文档智能系统开发提供了更有效的技术路径,在八个领域测试中取得最佳平均完整性得分
3️⃣ 主要结果与价值
结果亮点
- 文本-图像融合RAG在八个领域测试中取得最佳端到端性能(完整性得分0.684),超越纯文本和纯图像方法
- 基于图像的检索在多个领域实现了更高的召回率但精度较低,而文本和图像检索结合能同时提升召回率和精度
- 当前多模态联合嵌入RAG表现不如纯文本RAG,表明显式结合独立的文本和图像嵌入是最有效策略
- 图像相关查询对所有嵌入类型都具有挑战性,是需要重点改进的方向
实际价值
- 多模态RAG在保持可比延迟的同时,成本低于纯文本RAG,具有经济优势
- 文档格式、布局和页数对性能没有显著影响,系统具有良好的通用性
- 为实际应用中选择合适的RAG组件提供了实用指导,突出多模态方法在复杂文档处理中的优势
4️⃣ 术语表
- MM-RAG:多模态检索增强生成,嵌入跨模态文档并联合检索和推理的关键范式
- UniDoc-Bench:为文档中心多模态RAG构建的统一基准,支持四种范式的公平比较
- RAG:检索增强生成系统,通过检索相关信息来增强语言模型的生成能力
- 文本-图像融合RAG:分别使用文本和图像检索器然后融合的多模态RAG方法,在实验中表现最佳
- 完整性(Completeness):评估系统响应是否包含回答问题所需的所有事实的指标,分数越高越好
- 事实性(Factuality):评估问答内容是否基于源材料,无幻觉或虚构内容的指标
- 来源验证(Grounding Verification):确定具体哪些源材料被用于回答问题的追踪机制
- Precision@10:检索指标,评估在前10个检索结果中相关项目的比例
- Recall@10:检索指标,评估在前10个检索结果中覆盖的相关项目占全部相关项目的比例