NVIDIA Nemotron-Parse 1.1:轻量级文档解析与OCR模型 / NVIDIA Nemotron Parse 1.1
1️⃣ 一句话总结
NVIDIA Nemotron-Parse 1.1是一个8.85亿参数的轻量级文档解析和OCR模型,在通用OCR、Markdown格式化、结构化表格解析以及从图像、图表中提取文本方面相比前代有显著改进,并通过令牌压缩变体实现了20%的速度提升。
2️⃣ 论文创新点
1. 轻量级文档解析模型
- 创新点:采用编码器-解码器架构的885M参数轻量级模型,包含紧凑的2.56亿参数语言解码器
- 区别/改进:相比前代在通用OCR、Markdown格式化、表格解析和从图表中提取文本方面有改进
- 意义:提供竞争性的准确率,成为强大的轻量级OCR解决方案
2. 无位置嵌入解码器
- 创新点:在LLM解码器中训练和评估时不使用位置嵌入
- 区别/改进:简化了架构,移除了额外的位置参数,避免了序列嵌入与视觉特征中已有2D空间信息之间的潜在干扰
- 意义:实现了与使用位置嵌入的模型相当的精度,同时允许更长的上下文推理长度,提高了对不同文档长度的泛化能力和计算效率
3. 多令牌推理
- 创新点:通过预测n个令牌同时进行,而非一次一个令牌的自回归解码
- 区别/改进:在训练时添加额外的线性层来预测后续令牌,推理时采用贪婪解码
- 意义:解决了文本密集图像推理速度慢的问题,并且该训练策略甚至提升了默认单令牌推理设置的准确性
4. NVpdftex数据生成管道
- 创新点:基于LaTeX编译和结构化输出提取的集成方法
- 区别/改进:相比Nougat的HTML转换方法,直接耦合LaTeX编译与输出提取,保留字符级边界框对齐
- 意义:生成高质量大规模文档真值语料,支持精确的边界框和语义标签
5. 多格式数据增强
- 创新点:对DocLayNet和Common Crawl数据进行自动标注,增加了文本阅读顺序、图像内文本、markdown格式等标注信息
- 区别/改进:扩展了原始数据集的标注范围,提高了格式多样性
- 意义:增强了模型处理复杂文档布局的能力
3️⃣ 主要结果与价值
结果亮点
- 在OmniDocBench、RD-TableBench、PubTabNet等多个基准测试中表现优异,超越Qwen2.5-VL-72B、Gemini2.5-Pro、Textract、GPT-4o等多个对比模型
- 在内部测试集上,Nemotron-Parse-MIP模型在WER(0.102)和F1(0.957)指标上优于基线模型Kosmos-2.5和GOT
- 支持多语言OCR能力,专注于科学文档处理,特别在表格和阅读顺序指标上超越同类模型
- 在H100 GPU上推理速度分别达到3800 tokens/秒和4500 tokens/秒(TC版本)
实际价值
- 适用于大规模批处理、边缘部署或需要快速响应的交互式系统
- 提升文档可读性和处理效率,尤其在科学领域文档中
- 为文档解析任务提供了新的性能基准,支持多语言OCR和复杂表格提取
- 实现生产环境可用的高性能文档解析服务
4️⃣ 术语表
- Nemotron-Parse-1.1:NVIDIA推出的轻量级文档解析和OCR模型,具有885M参数,采用编码器-解码器架构
- Nemotron-Parse-1.1-TC:Nemotron-Parse-1.1的令牌压缩变体,通过减少视觉令牌长度实现20%速度提升
- 多令牌推理:一种推理策略,通过同时预测多个令牌来加速自回归模型的推理过程
- NVpdftex:基于扩展TeX Live工具链的高质量文档数据生成管道,提供字符级边界框和语义标签
- TEDS:表格结构相似性指标,用于评估表格提取的准确性,值越高表示提取效果越好
- OmniDocBench:广泛采用的文档解析基准测试,评估模型在文本、公式、表格和阅读顺序等方面的性能
- DocLayNet:用于布局分析的公共数据集,在原有标注基础上增加了阅读顺序、图像内文本等自动标注
- Transformer:基于自注意力机制的神经网络架构,最初用于自然语言处理,后扩展到视觉任务