arXiv ID:
2601.11425
arXiv 提交日期: 2026-01-16
PubMed-OCR:来自PubMed Central开放获取PDF的科学文献OCR标注数据集 / PubMed-OCR: PMC Open Access OCR Annotations
1️⃣ 一句话总结
这篇论文发布了一个名为PubMed-OCR的大规模数据集,它通过自动标注技术,从超过20万篇开放获取的科学文献PDF中提取了文本及其在页面上的精确位置信息,旨在支持需要理解文档版面布局的AI模型研究与应用。