← 返回列表

🤖 系统

📄 Abstract - UniDoc-Bench: A Large-Scale Realistic Benchmark for Multimodal Retrieval-Augmented Generation

⏳ 正在获取摘要...

📄 论文总结

UniDoc-Bench：面向多模态检索增强生成的大规模真实基准测试 / UniDoc-Bench: A Large-Scale Realistic Benchmark for Multimodal Retrieval-Augmented Generation

1️⃣ 一句话总结

本文提出了UniDoc-Bench，这是首个为多模态检索增强生成(MM-RAG)构建的大规模真实基准，通过70K真实PDF页面和1,600个人工验证的问答对，系统评估了不同RAG策略的性能，发现文本-图像融合RAG系统始终优于单模态和基于联合多模态嵌入的检索方法。

2️⃣ 论文创新点

1. UniDoc-Bench基准框架

创新点：首个为MM-RAG构建的大规模真实基准，基于8个领域的70K真实PDF页面，涵盖文本、表格和图形中的证据
区别/改进：解决了当前MM-RAG评估基准的碎片化问题，支持跨四种范式的统一比较
意义：为文档中心多模态用例提供了公平、全面的评估框架，推动MM-RAG系统发展

2. 多模态证据链接

创新点：从文本、表格和图形中提取并链接证据，生成1,600个多模态QA对，覆盖事实检索、比较、总结和逻辑推理查询
区别/改进：克服了OCR丢弃空间和视觉语义的局限性，更好地捕捉文档中的多模态信息
意义：使RAG系统能够处理依赖于图表、表格和复杂布局的复杂查询

3. 文本-图像融合RAG策略

创新点：分别使用强大的文本和图像检索器进行融合的策略，而非依赖多模态联合嵌入
区别/改进：相比单一联合多模态嵌入或单模态方法有显著改进
意义：为文档智能系统开发提供了更有效的技术路径，在八个领域测试中取得最佳平均完整性得分

3️⃣ 主要结果与价值

结果亮点

文本-图像融合RAG在八个领域测试中取得最佳端到端性能（完整性得分0.684），超越纯文本和纯图像方法
基于图像的检索在多个领域实现了更高的召回率但精度较低，而文本和图像检索结合能同时提升召回率和精度
当前多模态联合嵌入RAG表现不如纯文本RAG，表明显式结合独立的文本和图像嵌入是最有效策略
图像相关查询对所有嵌入类型都具有挑战性，是需要重点改进的方向

实际价值

多模态RAG在保持可比延迟的同时，成本低于纯文本RAG，具有经济优势
文档格式、布局和页数对性能没有显著影响，系统具有良好的通用性
为实际应用中选择合适的RAG组件提供了实用指导，突出多模态方法在复杂文档处理中的优势

4️⃣ 术语表

MM-RAG：多模态检索增强生成，嵌入跨模态文档并联合检索和推理的关键范式
UniDoc-Bench：为文档中心多模态RAG构建的统一基准，支持四种范式的公平比较
RAG：检索增强生成系统，通过检索相关信息来增强语言模型的生成能力
文本-图像融合RAG：分别使用文本和图像检索器然后融合的多模态RAG方法，在实验中表现最佳
完整性(Completeness)：评估系统响应是否包含回答问题所需的所有事实的指标，分数越高越好
事实性(Factuality)：评估问答内容是否基于源材料，无幻觉或虚构内容的指标
来源验证(Grounding Verification)：确定具体哪些源材料被用于回答问题的追踪机制
Precision@10：检索指标，评估在前10个检索结果中相关项目的比例
Recall@10：检索指标，评估在前10个检索结果中覆盖的相关项目占全部相关项目的比例

📄 打开原文 PDF