NVIDIA Nemotron Parse 1.1

📄 Abstract - NVIDIA Nemotron Parse 1.1

We introduce Nemotron-Parse-1.1, a lightweight document parsing and OCR model that advances the capabilities of its predecessor, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 delivers improved capabilities across general OCR, markdown formatting, structured table parsing, and text extraction from pictures, charts, and diagrams. It also supports a longer output sequence length for visually dense documents. As with its predecessor, it extracts bounding boxes of text segments, as well as corresponding semantic classes. Nemotron-Parse-1.1 follows an encoder-decoder architecture with 885M parameters, including a compact 256M-parameter language decoder. It achieves competitive accuracy on public benchmarks making it a strong lightweight OCR solution. We release the model weights publicly on Huggingface, as well as an optimized NIM container, along with a subset of the training data as part of the broader Nemotron-VLM-v2 dataset. Additionally, we release Nemotron-Parse-1.1-TC which operates on a reduced vision token length, offering a 20% speed improvement with minimal quality degradation.

NVIDIA Nemotron-Parse 1.1：轻量级文档解析与OCR模型 / NVIDIA Nemotron Parse 1.1

1️⃣ 一句话总结

NVIDIA Nemotron-Parse 1.1是一个8.85亿参数的轻量级文档解析和OCR模型，在通用OCR、Markdown格式化、结构化表格解析以及从图像、图表中提取文本方面相比前代有显著改进，并通过令牌压缩变体实现了20%的速度提升。

2️⃣ 论文创新点

1. 轻量级文档解析模型

创新点：采用编码器-解码器架构的885M参数轻量级模型，包含紧凑的2.56亿参数语言解码器
区别/改进：相比前代在通用OCR、Markdown格式化、表格解析和从图表中提取文本方面有改进
意义：提供竞争性的准确率，成为强大的轻量级OCR解决方案

2. 无位置嵌入解码器

创新点：在LLM解码器中训练和评估时不使用位置嵌入
区别/改进：简化了架构，移除了额外的位置参数，避免了序列嵌入与视觉特征中已有2D空间信息之间的潜在干扰
意义：实现了与使用位置嵌入的模型相当的精度，同时允许更长的上下文推理长度，提高了对不同文档长度的泛化能力和计算效率

3. 多令牌推理

创新点：通过预测n个令牌同时进行，而非一次一个令牌的自回归解码
区别/改进：在训练时添加额外的线性层来预测后续令牌，推理时采用贪婪解码
意义：解决了文本密集图像推理速度慢的问题，并且该训练策略甚至提升了默认单令牌推理设置的准确性

4. NVpdftex数据生成管道

创新点：基于LaTeX编译和结构化输出提取的集成方法
区别/改进：相比Nougat的HTML转换方法，直接耦合LaTeX编译与输出提取，保留字符级边界框对齐
意义：生成高质量大规模文档真值语料，支持精确的边界框和语义标签

5. 多格式数据增强

创新点：对DocLayNet和Common Crawl数据进行自动标注，增加了文本阅读顺序、图像内文本、markdown格式等标注信息
区别/改进：扩展了原始数据集的标注范围，提高了格式多样性
意义：增强了模型处理复杂文档布局的能力

3️⃣ 主要结果与价值

结果亮点

在OmniDocBench、RD-TableBench、PubTabNet等多个基准测试中表现优异，超越Qwen2.5-VL-72B、Gemini2.5-Pro、Textract、GPT-4o等多个对比模型
在内部测试集上，Nemotron-Parse-MIP模型在WER(0.102)和F1(0.957)指标上优于基线模型Kosmos-2.5和GOT
支持多语言OCR能力，专注于科学文档处理，特别在表格和阅读顺序指标上超越同类模型
在H100 GPU上推理速度分别达到3800 tokens/秒和4500 tokens/秒（TC版本）

实际价值

适用于大规模批处理、边缘部署或需要快速响应的交互式系统
提升文档可读性和处理效率，尤其在科学领域文档中
为文档解析任务提供了新的性能基准，支持多语言OCR和复杂表格提取
实现生产环境可用的高性能文档解析服务

4️⃣ 术语表

Nemotron-Parse-1.1：NVIDIA推出的轻量级文档解析和OCR模型，具有885M参数，采用编码器-解码器架构
Nemotron-Parse-1.1-TC：Nemotron-Parse-1.1的令牌压缩变体，通过减少视觉令牌长度实现20%速度提升
多令牌推理：一种推理策略，通过同时预测多个令牌来加速自回归模型的推理过程
NVpdftex：基于扩展TeX Live工具链的高质量文档数据生成管道，提供字符级边界框和语义标签
TEDS：表格结构相似性指标，用于评估表格提取的准确性，值越高表示提取效果越好
OmniDocBench：广泛采用的文档解析基准测试，评估模型在文本、公式、表格和阅读顺序等方面的性能
DocLayNet：用于布局分析的公共数据集，在原有标注基础上增加了阅读顺序、图像内文本等自动标注
Transformer：基于自注意力机制的神经网络架构，最初用于自然语言处理，后扩展到视觉任务

← 返回列表

菜单

🤖 AI 深度阅读

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 轻量级文档解析模型

2. 无位置嵌入解码器

3. 多令牌推理

4. NVpdftex数据生成管道

5. 多格式数据增强

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

🤖 AI 深度阅读

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 轻量级文档解析模型

2. 无位置嵌入解码器

3. 多令牌推理

4. NVpdftex数据生成管道

5. 多格式数据增强

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要