arXiv ID:
2606.29378
arXiv 提交日期: 2026-06-28
跨时间僧伽罗语OCR:页面级自适应与历时分析 / Cross-Temporal Sinhala OCR: Page-Level Adaptation and Diachronic Analysis
1️⃣ 一句话总结
本文首次构建了包含1010张真实历史法律文档图像的僧伽罗语OCR数据集,并通过微调深度学习模型发现LightOnOCR-2-1B在页面级文字识别上表现最佳,其字符错误率仅1.05%,显著优于现有开源及商业OCR系统,且对不同印刷年代的老旧文档均保持稳定性能。