arXiv ID:
2601.14490
GutenOCR:一种基于视觉语言模型的文档理解前端系统 / GutenOCR: A Grounded Vision-Language Front-End for Documents
1️⃣ 一句话总结
这篇论文提出了一个名为GutenOCR的视觉语言模型,它通过微调现有模型,能够统一地识别、定位和回答文档中的文字内容,在商业和科学文档的测试中性能大幅提升,但也揭示了在处理复杂布局时的一些权衡。