arXiv ID:
2604.26382
面向复杂多模态文档处理流程的基准测试:企业AI的统一评估框架 / Benchmarking Complex Multimodal Document Processing Pipelines: A Unified Evaluation Framework for Enterprise AI
1️⃣ 一句话总结
本文提出了一个名为EnterpriseDocBench的统一评估框架,用于测试企业文档AI处理流水线(解析、索引、检索、生成)的整体性能,发现混合检索的表现略优于传统BM25方法,而幻觉率并非随文档长度单调增加,且系统回答虽准确但经常遗漏关键内容,揭示了各阶段之间质量并不像预期那样相互级联传递。