arXiv最新AI论文速览速学

🔍

标签: #document understanding ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Structured Layout Priors for Robust Out-of-Distribution Visual Document Understanding 05-20

arXiv ID: 2605.19866

arXiv 提交日期: 2026-05-19

multi-modal document understanding model evaluation visual document understanding out-of-distribution layout priors vision-language models benchmark

用于鲁棒性分布外视觉文档理解的结构化布局先验 / Structured Layout Priors for Robust Out-of-Distribution Visual Document Understanding

1️⃣ 一句话总结

本文提出一种轻量级方法，通过在视觉语言模型解码前额外添加一个布局检测器，将识别到的文档结构以模型自身能理解的标签形式注入提示中，从而大幅提升模型对从未见过的新颖页面布局的理解能力，解决了传统模型在未知布局上容易出错或陷入无限循环的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.12623

arXiv 提交日期: 2026-05-12

machine learning natural language processing benchmark document understanding multilingual ocr low-resource languages direct preference optimization

DocAtlas：跨越80多种语言的多语言文档理解 / DocAtlas: Multilingual Document Understanding Across 80+ Languages

1️⃣ 一句话总结

DocAtlas提出了一种无需依赖现有模型标注、通过差异化渲染和合成生成技术构建高质量多语言OCR数据集与基准的方法，覆盖82种语言和9个任务，并利用直接偏好优化（DPO）以渲染生成的真实标签作为正信号，实现了稳定的多语言适配，在领域内和领域外均提升了模型性能，避免了监督微调带来的严重性能下降。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12047

arXiv 提交日期: 2026-04-13

llm data benchmark pdf parsing retrieval-augmented generation financial qa chunking strategies document understanding

面向金融问答RAG系统的PDF解析与分块策略实证评估 / Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG

1️⃣ 一句话总结

这篇论文通过系统评估不同的PDF解析工具和文本分块策略，为构建更可靠的金融文档问答系统提供了实用的操作指南。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06770

arXiv 提交日期: 2026-04-08

computer vision natural language processing multi-modal document understanding graph extraction flowchart parsing procedural knowledge vision-language models

FlowExtract：从维护流程图中提取程序性知识 / FlowExtract: Procedural Knowledge Extraction from Maintenance Flowcharts

1️⃣ 一句话总结

这篇论文提出了一个名为FlowExtract的系统，它能够自动从工业维护流程图中提取出结构化的、可查询的程序步骤关系图，解决了现有视觉模型难以理解此类图表连接关系的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06160

arXiv 提交日期: 2026-04-07

natural language processing computer vision model evaluation optical character recognition evaluation metric document understanding character error rate page parsing

字符错误向量：用于页面级OCR评估的可分解错误 / The Character Error Vector: Decomposable errors for page-level OCR evaluation

1️⃣ 一句话总结

本文提出了一种名为‘字符错误向量’的新评估方法，它不仅能像传统指标一样衡量OCR的字符识别准确度，还能将整体错误分解为文本解析和字符识别等不同来源，从而帮助研究人员更精准地定位和优化文档理解流程中的薄弱环节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28554

arXiv 提交日期: 2026-03-30

multi-modal natural language processing model training document understanding retrieval-augmented generation vision-language model parameter-efficient fine-tuning unified architecture

Hydra：在单一视觉语言模型中统一文档检索与生成 / Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model

1️⃣ 一句话总结

这篇论文提出了名为Hydra的单一视觉语言模型，它通过一个可切换的轻量适配器，在保持原有文本生成质量不变的同时，新增了高效的文档检索能力，从而用一个模型解决了以往需要两个独立模型才能完成的任务，并显著降低了系统复杂性和内存占用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10910

arXiv 提交日期: 2026-03-11

multi-modal natural language processing computer vision document understanding optical character recognition multimodal model layout analysis structured generation

GLM-OCR技术报告 / GLM-OCR Technical Report

1️⃣ 一句话总结

这篇论文介绍了一个名为GLM-OCR的高效轻量级多模态模型，它通过结合视觉编码器和语言解码器，并采用创新的多令牌预测机制，在保持低计算成本的同时，实现了对文档中文字、公式、表格等内容的出色识别与理解，适合在实际场景中部署。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09414

arXiv 提交日期: 2026-03-10

computer vision natural language processing multi-modal document layout analysis domain adaptation prompt engineering document understanding visual document processing

PromptDLA：一个以描述性知识为线索的领域感知提示文档布局分析框架 / PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

1️⃣ 一句话总结

这篇论文提出了一个名为PromptDLA的新框架，它通过一个能根据数据领域特点自动生成提示的‘领域感知提示器’，将领域先验知识作为线索来指导模型，从而有效提升了文档布局分析模型在混合不同领域数据训练时的泛化能力和性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21824

arXiv 提交日期: 2026-02-25

multi-modal computer vision natural language processing synthetic data generation vision-language models document understanding handwriting synthesis privacy-preserving ai

DocDjinn：基于视觉语言模型和手写扩散的可控合成文档生成框架 / DocDjinn: Controllable Synthetic Document Generation with VLMs and Handwriting Diffusion

1️⃣ 一句话总结

这篇论文提出了一个名为DocDjinn的新框架，它利用视觉语言模型和手写扩散技术，仅需少量真实文档作为“种子”，就能自动生成大量高质量、带标注的合成文档，有效解决了文档智能模型训练中数据稀缺和隐私保护的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14490

arXiv 提交日期: 2026-01-20

multi-modal natural language processing computer vision optical character recognition vision-language model document understanding grounded ocr text detection

GutenOCR：一种基于视觉语言模型的文档理解前端系统 / GutenOCR: A Grounded Vision-Language Front-End for Documents

1️⃣ 一句话总结

这篇论文提出了一个名为GutenOCR的视觉语言模型，它通过微调现有模型，能够统一地识别、定位和回答文档中的文字内容，在商业和科学文档的测试中性能大幅提升，但也揭示了在处理复杂布局时的一些权衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.19866

1️⃣ 一句话总结

arXiv ID: 2605.12623

1️⃣ 一句话总结

arXiv ID: 2604.12047

1️⃣ 一句话总结

arXiv ID: 2604.06770

1️⃣ 一句话总结

arXiv ID: 2604.06160

1️⃣ 一句话总结

arXiv ID: 2603.28554

1️⃣ 一句话总结

arXiv ID: 2603.10910

1️⃣ 一句话总结

arXiv ID: 2603.09414

1️⃣ 一句话总结

arXiv ID: 2602.21824

1️⃣ 一句话总结

arXiv ID: 2601.14490

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.19866 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.12623 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12047 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06770 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06160 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28554 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10910 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09414 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21824 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14490 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.19866

arXiv ID: 2605.12623

arXiv ID: 2604.12047

arXiv ID: 2604.06770

arXiv ID: 2604.06160

arXiv ID: 2603.28554

arXiv ID: 2603.10910

arXiv ID: 2603.09414

arXiv ID: 2602.21824

arXiv ID: 2601.14490