arXiv ID:
2601.14251
LightOnOCR:一个10亿参数的端到端多语言视觉-语言模型,用于实现最先进的OCR / LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR
1️⃣ 一句话总结
这篇论文提出了一个名为LightOnOCR-2-1B的轻量级模型,它能够直接将文档图片(如PDF)转换成干净、顺序自然的文本,无需复杂的传统OCR流程,并且在性能上超越了更大、更慢的现有最佳模型,同时还能预测文档中图片的位置。