DocAtlas: Multilingual Document Understanding Across 80+ Languages

📄 Abstract - DocAtlas: Multilingual Document Understanding Across 80+ Languages

Multilingual document understanding remains limited for low-resource languages due to scarce training data and model-based annotation pipelines that perpetuate existing biases. We introduce DocAtlas, a framework that constructs high-fidelity OCR datasets and benchmarks covering 82 languages and 9 evaluation tasks. Our dual pipelines, differential rendering of native DOCX documents and synthetic LaTeX-based generation for right-to-left scripts produce precise structural annotations in a unified DocTag format encoding layout, text, and component types, without learned models for core annotation. Evaluating 16 state-of-the-art models reveals persistent gaps in low-resource scripts. We show that Direct Preference Optimization (DPO) using rendering-derived ground truth as positive signal achieves stable multilingual adaptation, improving both in-domain (+1.9%) and out-of-domain (+1.8%) accuracy without measurable base-language degradation, where supervised fine-tuning degrades out-of-domain performance by up to 21%. Our best variant, DocAtlas-DeepSeek, improves +1.7% over the strongest baseline.

DocAtlas：跨越80多种语言的多语言文档理解 / DocAtlas: Multilingual Document Understanding Across 80+ Languages

1️⃣ 一句话总结

DocAtlas提出了一种无需依赖现有模型标注、通过差异化渲染和合成生成技术构建高质量多语言OCR数据集与基准的方法，覆盖82种语言和9个任务，并利用直接偏好优化（DPO）以渲染生成的真实标签作为正信号，实现了稳定的多语言适配，在领域内和领域外均提升了模型性能，避免了监督微调带来的严重性能下降。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

获取最新论文摘要