arXiv最新AI论文速览速学

🔍

标签: #optical character recognition ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: The Character Error Vector: Decomposable errors for page-level OCR evaluation 04-08

arXiv ID: 2604.06160

arXiv 提交日期: 2026-04-07

natural language processing computer vision model evaluation optical character recognition evaluation metric document understanding character error rate page parsing

字符错误向量：用于页面级OCR评估的可分解错误 / The Character Error Vector: Decomposable errors for page-level OCR evaluation

1️⃣ 一句话总结

本文提出了一种名为‘字符错误向量’的新评估方法，它不仅能像传统指标一样衡量OCR的字符识别准确度，还能将整体错误分解为文本解析和字符识别等不同来源，从而帮助研究人员更精准地定位和优化文档理解流程中的薄弱环节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27942

arXiv 提交日期: 2026-03-30

computer vision natural language processing benchmark scene text understanding visual question answering optical character recognition multilingual evaluation vision-language models

JaWildText：一个用于评估视觉语言模型在日语场景文本理解能力的基准数据集 / JaWildText: A Benchmark for Vision-Language Models on Japanese Scene Text Understanding

1️⃣ 一句话总结

这篇论文提出了一个专门针对日语自然场景文本理解的新基准数据集JaWildText，它通过三个互补任务来全面评估视觉语言模型在处理日语特有的混合文字、竖排书写和大字符集等复杂情况时的能力，并发现当前模型在识别汉字方面仍存在主要瓶颈。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10910

arXiv 提交日期: 2026-03-11

multi-modal natural language processing computer vision document understanding optical character recognition multimodal model layout analysis structured generation

GLM-OCR技术报告 / GLM-OCR Technical Report

1️⃣ 一句话总结

这篇论文介绍了一个名为GLM-OCR的高效轻量级多模态模型，它通过结合视觉编码器和语言解码器，并采用创新的多令牌预测机制，在保持低计算成本的同时，实现了对文档中文字、公式、表格等内容的出色识别与理解，适合在实际场景中部署。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19583

arXiv 提交日期: 2026-02-23

systems model evaluation benchmark evaluation platform docker machine translation optical character recognition statistical analysis

DEEP：基于Docker的执行与评估平台 / DEEP: Docker-based Execution and Evaluation Platform

1️⃣ 一句话总结

这篇论文提出了一个名为DEEP的自动化平台，它利用Docker容器技术来统一运行和评估不同的人工智能模型（如机器翻译和文字识别），并通过统计分析和可视化工具帮助研究者更直观地比较各模型的性能差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20552

arXiv 提交日期: 2026-01-28

computer vision multi-modal model training optical character recognition visual token reordering causal reasoning vision-language models image understanding

DeepSeek-OCR 2：视觉因果流 / DeepSeek-OCR 2: Visual Causal Flow

1️⃣ 一句话总结

这篇论文提出了一种模仿人类视觉感知方式的新型图像编码器，它能够根据图像内容智能地重新排列视觉信息，再交给大语言模型处理，为理解复杂图像提供了一种新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14722

arXiv 提交日期: 2026-01-21

natural language processing computer vision multi-modal optical character recognition thai language document extraction vision-language model layout reconstruction

台风OCR：面向泰语文档提取的开放视觉语言模型 / Typhoon OCR: Open Vision-Language Model For Thai Document Extraction

1️⃣ 一句话总结

这篇论文提出了一个名为Typhoon OCR的开放视觉语言模型，它专门针对泰语和英语文档，能够高效、准确地完成文本转录和版式重建，其性能媲美甚至超越更大、更昂贵的商业模型，同时保持了轻量化和易于部署的特点。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14490

arXiv 提交日期: 2026-01-20

multi-modal natural language processing computer vision optical character recognition vision-language model document understanding grounded ocr text detection

GutenOCR：一种基于视觉语言模型的文档理解前端系统 / GutenOCR: A Grounded Vision-Language Front-End for Documents

1️⃣ 一句话总结

这篇论文提出了一个名为GutenOCR的视觉语言模型，它通过微调现有模型，能够统一地识别、定位和回答文档中的文字内容，在商业和科学文档的测试中性能大幅提升，但也揭示了在处理复杂布局时的一些权衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14251

arXiv 提交日期: 2026-01-20

multi-modal natural language processing computer vision optical character recognition vision-language model document understanding multilingual end-to-end

LightOnOCR：一个10亿参数的端到端多语言视觉-语言模型，用于实现最先进的OCR / LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR

1️⃣ 一句话总结

这篇论文提出了一个名为LightOnOCR-2-1B的轻量级模型，它能够直接将文档图片（如PDF）转换成干净、顺序自然的文本，无需复杂的传统OCR流程，并且在性能上超越了更大、更慢的现有最佳模型，同时还能预测文档中图片的位置。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22448

arXiv 提交日期: 2025-11-27

computer vision natural language processing multi-modal vision-language models document understanding optical character recognition business process modeling structured data extraction

利用视觉语言模型从业务流程图中进行结构化信息提取 / Structured Extraction from Business Process Diagrams Using Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种新方法，利用视觉语言模型直接从业务流程图的图片中自动提取出结构化的信息，即使没有原始的源文件也能准确识别图中的各种元素和文字。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.06160

1️⃣ 一句话总结

arXiv ID: 2603.27942

1️⃣ 一句话总结

arXiv ID: 2603.10910

1️⃣ 一句话总结

arXiv ID: 2602.19583

1️⃣ 一句话总结

arXiv ID: 2601.20552

1️⃣ 一句话总结

arXiv ID: 2601.14722

1️⃣ 一句话总结

arXiv ID: 2601.14490

1️⃣ 一句话总结

arXiv ID: 2601.14251

1️⃣ 一句话总结

arXiv ID: 2511.22448

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.06160 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27942 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10910 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19583 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20552 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14722 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14490 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14251 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22448 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.06160

arXiv ID: 2603.27942

arXiv ID: 2603.10910

arXiv ID: 2602.19583

arXiv ID: 2601.20552

arXiv ID: 2601.14722

arXiv ID: 2601.14490

arXiv ID: 2601.14251

arXiv ID: 2511.22448