9亿参数大杀器！英伟达NeMo狂飙，文档AI要变天？

企业在日常运营中会生成并存储海量的非结构化数据，这些数据以研究报告、商业合同、财务报表和技术手册等文档形式存在。然而，从这些文档中提取有价值的信息一直以来都是一项挑战，因为传统的光学字符识别（OCR）技术在处理复杂布局、结构多变以及跨页保持信息连贯性方面存在不足。

准确地对页面元素（如页眉、页脚和正文内容）进行分类，对于保持多页文档的结构至关重要。表格、图表、数学公式以及嵌套内容也需要超越基本文本识别的结构性理解。此外，文档密度的广泛变化（从大型报告到格式化的信函）进一步增加了OCR处理的复杂性。这些挑战凸显了对具有布局感知能力的智能模型的需求，这些模型能够理解文档，并可靠地保持大规模的含义、结构和阅读顺序。

英伟达（NVIDIA）的 NeMo Retriever Parse 技术克服了传统OCR技术的局限性。NeMo Retriever Parse 专为解决文档智能领域最困难的问题而设计，它是一个基于前沿视觉语言模型（VLM）技术构建的优化模型。

它提供先进的文本和表格提取以及具有空间定位的文档语义理解，将结构化和非结构化文档转换为可操作的数据。它是NeMo Retriever微服务系列的一部分，用于构建具有高精度和最大数据隐私的多模态摄取和检索管道。

NeMo Retriever Parse 的核心是一个基于 Transformer 的视觉编码器-解码器模型，专为高精度文档理解而设计。它的VLM架构能够无缝提取结构化文本，同时保留文档布局、语义类和阅读顺序。主要功能包括：

按照阅读顺序准确提取文本和公式。
空间定位和分类文档元素，例如标题、节标题、文本、列表项、页眉、页脚、标题、表格、图形、公式、书目、目录和脚注。
支持纯文本和 Markdown 输出格式。
与企业检索管道无缝集成，以提高可搜索性和组织性。

通过将原始文档与智能的AI驱动处理连接起来，NeMo Retriever Parse 可以改善企业和研究人员与其数据交互的方式。

数字世界依靠结构化知识蓬勃发展。无论是科学研究、法律合同还是企业报告，文档智能对于信息可访问性和决策都至关重要。NeMo Retriever Parse 通过以下方式改变文档AI：

提高检索准确性：通过准确分类和分割文档组件来增强检索管道。NeMo Retriever Parse 使用边界框来保留文档布局并对内容类型（例如，标题、段落、标题）进行分类，从而确保结构化的、上下文感知的文本提取。
结构化内容提取：通过高质量的结构化文本提取来提高大型语言模型（LLM）和VLM的准确性。NeMo Retriever Parse 通过准确提取和格式化语义丰富的内容（包括文本、表格和结构元素）来丰富训练数据集和推理管道。
使用多模态智能处理文档：支持PDF、PowerPoint演示文稿和其他文档格式等文件格式，从而为AI驱动的文本、表格知识提取和理解文档功能解锁新的效率。

从技术层面来看，该模型基于视觉 Transformer (ViT-H) 视觉编码器和一个基于 mBART 的解码器构建，针对效率和准确性进行了优化。以下是使其独一无二的原因：

模型架构

NeMo Retriever Parse 是一个 9 亿参数的模型，使用一个 6 亿参数的 ViT-H 模型进行视觉元素的编码，以及一个 2.5 亿参数的基于 mBART 的解码器，针对效率和准确性进行了优化。关键的架构特性包括：

用于高性能视觉语言建模的英伟达C-RADIO框架。
自适应压缩层，将潜在空间从 13,184 个 token 减少到 3,200 个 token。
用于结构化文本重建的 10 块 mBART Transformer 解码器。
基于 Galactica 的分词器，用于高质量的文档分词。

与依赖轻量级编码器和重型解码器的其他方法不同，NeMo Retriever Parse 使用重型视觉编码器和轻型解码器。这使得该模型能够深入理解复杂的文档布局和语义，以便以自回归方式进行快速、高效的提取。
NeMo Retriever Parse 模型架构

图 2. 9 亿参数的 NeMo Retriever Parse 模型的架构

分词

Nemo Retriever Parse 通过采用端到端的方法，集成了文本提取、布局分析和语义分类，从而区分于传统的文档处理管道，通过使用VLM架构。

一个关键的技术创新是其统一的分词方案。底层分词器专门用于文本领域，并通过专用的特殊 token 进行增强，使 NeMo Retriever Parse 不仅可以表示提取的文本，还可以表示相应的边界框坐标和语义类。

这些空间（<x_{coordinate}>, <y_{coordinate}>）token，表示在相对于输入图像尺寸的归一化网格内预测的离散坐标，以及语义（<class_{category}>）token 直接交织在输出序列中，根据文档的规范阅读流程进行排序。这使得 NeMo Retriever Parse 能够生成一个包含文本、空间和语义信息的丰富、结构化的输出流，从而摆脱了多阶段或单独的输出方法。

训练

NeMo Retriever Parse 的训练采用两步方案，旨在培养其通用能力。它首先在 arXiv-5M 上进行大规模预训练，这是一个提供丰富注释（格式化文本、边界框、语义类）的高信息数据集。紧随其后的是在一个多样化的语料库上进行微调，包括 arXiv-5M、人工注释的样本和通常只有部分注释的公开数据集。

微调期间的战略混合至关重要：提示控制的目标输出格式（例如，仅文本、文本+bbox、文本+bbox+class）根据数据集注释的可用性动态调整。这教会模型处理不同的信息密度需求，从而增强了跨各种文档和输出规范的鲁棒性。

最后，集成了多 token 训练（MTT）。通过训练解码器预测每步“n”个后续 token，这种方法迫使模型的内部表示开发更强大的预测状态，从而有效地跟踪结构化序列生成所需的依赖关系。

这包括隐式跟踪预期的下一个 token，这对于维护文本、空间和语义 token 在输出流中的精确交织和规范阅读顺序至关重要。与传统的单 token 预测相比，这种增强的内部跟踪显著提高了模型遵循文档结构和保持连贯性的能力。

输入和输出属性

NeMo Retriever Parse 将 RGB 图像作为输入进行处理。输出由带有边界框和类属性的结构化文本组成，从而实现全面的文档理解。

训练和准确性评估

NeMo Retriever Parse 已经使用人工标记的、合成的和自动标记的数据集进行了严格的训练，从而确保了在各种文档类型中具有强大的准确性。在公共和内部数据集上的广泛基准测试证明了其在实际应用中的有效性。

文本提取基准

对于文本提取任务，NeMo Retriever Parse 在两个关键基准上进行了评估，这两个基准评估了跨各种文档类型和布局的质量和准确性：通用 OCR 理论（GOT）密集 OCR 基准和英伟达内部文档 OCR 基准。

采用的评估指标包括 F1 分数（平衡了精确率和召回率）。100 归一化编辑距离 (NED) 评估文本阅读顺序的准确性。METEOR 考虑了对齐、词干提取和同义词。BLEU 测量 n-gram 重叠。

NeMo Retriever Parse 在 GOT 密集 OCR 基准和英伟达内部文档 OCR 基准中展示了卓越的文本提取性能。在 GOT 基准中，该基准涉及高分辨率文档中密集堆积、格式复杂的文本，NeMo Retriever Parse 在所有保真度指标上都获得了接近完美的分数，展示了其处理复杂排版内容的能力。
GOT 密集 OCR 基准评估

图 3. 在 GOT 密集 OCR 基准上跨关键文本提取指标对 NeMo Retriever Parse 的评估
英伟达内部文档 OCR 基准结果

图 4. 英伟达文档 OCR 基准的结果

表格提取基准

对于表格提取任务，NeMo Retriever Parse 在两个已建立的基准上进行了评估：PubTabNet 和 RD-TableBench。

PubTabNet

PubTabNet 是一个用于基于图像的表格识别的大型数据集，包含超过 568,000 张从科学出版物中提取的表格图像。每个表格图像都使用其相应的 HTML 表示进行注释。该基准评估模型识别和重建表格结构的能力，使用诸如 TEDS 和 S-TEDS 之类的指标。

在这里，TEDS 通过将 LaTeX 表格转换为 HTML 并计算预测表格和真实表格之间的归一化树编辑距离来测量表格识别准确性。S-TEDS 通过计算将一棵树转换为另一棵树所需的最小节点编辑数来量化结构相似性。
PubTabNet 表格识别基准结果

图 5. PubTabNet 表格识别基准的结果

NeMo Retriever Parse 实现了 80.20 的 TEDS 分数和 92.20 的 S-TEDS 分数，大大超过了表格提取上的热门模型。这些数字表明 NeMo Retriever Parse 在准确识别表格内容和精确重建其底层结构方面的增强能力。

RD-TableBench

RD-TableBench 是一个开放基准，旨在评估文档中复杂表格的提取准确性。它具有 1,000 张手动注释的图像，这些图像来自扫描表格、手写内容、多种语言和合并单元格等来源，准确性使用分层对齐和莱文斯坦距离进行测量。
RD-TableBench 表格提取准确性基准结果

图 6. RD-TableBench 表格提取准确性基准的结果

与流行的文档提取器相比，NeMo Retriever Parse 在 RD-TableBench 上的表格提取准确性方面显示出显著优势。这种卓越的准确性强调了 NeMo Retriever Parse 在正确提取内容和结构方面的增强能力，尤其是从 RD-TableBench 中包含的具有挑战性和多样化的表格格式中提取内容和结构的能力。

主要收获

英伟达NeMo Retriever Parse 是基于VLM的OCR解决方案，使企业能够使用尖端技术来处理文档理解方面的复杂挑战并收集见解。

近乎无损的文本提取：NeMo Retriever Parse 展示了近乎无损的文本提取，具有最小的编辑距离和高的语义保真度，正如指标所证明的那样。
准确性：NeMo Retriever Parse 的总体准确性具有很强的竞争力，因为它在文本和表格提取保真度之间实现了全面的平衡
卓越的表格提取：在表格提取中，尤其是在诸如 PubTabNet 之类的大规模基准上，它以显着优势优于最接近的竞争对手，从而巩固了其作为复杂文档分析任务的最佳解决方案的地位。
结构化文档分割：通过预测语义类（例如，标题、页脚、列表项），该模型保留了跨多页、多列文档的阅读顺序和层次结构，从而为检索器和LLM启用了连贯的结构化输出。

通过仔细检查这些详细的基准，技术人员、研究人员和开发人员可以得出结论，NeMo Retriever Parse 为文本和表格提取提供了平衡、高精度的选项，使其成为任务关键型文档处理工作流程的最佳选择。

展望未来

NeMo Retriever Parse 不仅仅是一个文本提取模型，它是迈向文档AI未来的重要一步。通过无缝地弥合原始文档和智能AI系统之间的差距，它可以帮助组织以更高的效率提取、构建和利用信息。目前专注于英语，它正在扩展以支持中文和手写文档，以实现更广泛的适用性。扩展上下文长度将能够实现更深入和更先进的文档理解。

新媒网跨境认为，英伟达 NeMo Retriever Parse VLM 将推动文档智能的发展。

新媒网跨境获悉，可以从 NGC 目录下载 VLM NIM。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/7800.html