arXiv ID:
2601.20552
DeepSeek-OCR 2:视觉因果流 / DeepSeek-OCR 2: Visual Causal Flow
1️⃣ 一句话总结
这篇论文提出了一种模仿人类视觉感知方式的新型图像编码器,它能够根据图像内容智能地重新排列视觉信息,再交给大语言模型处理,为理解复杂图像提供了一种新思路。
DeepSeek-OCR 2:视觉因果流 / DeepSeek-OCR 2: Visual Causal Flow
这篇论文提出了一种模仿人类视觉感知方式的新型图像编码器,它能够根据图像内容智能地重新排列视觉信息,再交给大语言模型处理,为理解复杂图像提供了一种新思路。
台风OCR:面向泰语文档提取的开放视觉语言模型 / Typhoon OCR: Open Vision-Language Model For Thai Document Extraction
这篇论文提出了一个名为Typhoon OCR的开放视觉语言模型,它专门针对泰语和英语文档,能够高效、准确地完成文本转录和版式重建,其性能媲美甚至超越更大、更昂贵的商业模型,同时保持了轻量化和易于部署的特点。
GutenOCR:一种基于视觉语言模型的文档理解前端系统 / GutenOCR: A Grounded Vision-Language Front-End for Documents
这篇论文提出了一个名为GutenOCR的视觉语言模型,它通过微调现有模型,能够统一地识别、定位和回答文档中的文字内容,在商业和科学文档的测试中性能大幅提升,但也揭示了在处理复杂布局时的一些权衡。
LightOnOCR:一个10亿参数的端到端多语言视觉-语言模型,用于实现最先进的OCR / LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR
这篇论文提出了一个名为LightOnOCR-2-1B的轻量级模型,它能够直接将文档图片(如PDF)转换成干净、顺序自然的文本,无需复杂的传统OCR流程,并且在性能上超越了更大、更慢的现有最佳模型,同时还能预测文档中图片的位置。
利用视觉语言模型从业务流程图中进行结构化信息提取 / Structured Extraction from Business Process Diagrams Using Vision-Language Models
这篇论文提出了一种新方法,利用视觉语言模型直接从业务流程图的图片中自动提取出结构化的信息,即使没有原始的源文件也能准确识别图中的各种元素和文字。
请先 登录 后再提交论文