arXiv ID:
2606.06242
arXiv 提交日期: 2026-06-04
面向机构文档数据快照提取的开源布局检测模型基准测试 / Benchmarking Open-Source Layout Detection Models for Data Snapshot Extraction from Institutional Documents
1️⃣ 一句话总结
本文构建了一个包含人道主义报告和世界银行政策文件等机构文档的基准数据集,系统评估了多个开源布局检测模型在提取图中和表中可复用分析信息(即“数据快照”)方面的表现,发现这些模型在常规学术文档中表现良好,但在实际机构文档中容易混淆分析性内容与非分析性内容、拆分复合图表以及遗漏必要的上下文信息,揭示了通用文档布局分析与实用数据提取之间的显著差距。