NVIDIA王炸！8.8B模型63.42%准确率，ViDoRe V3登顶！

在当今这个信息爆炸的时代，我们每天面对的数字内容早已不再局限于单纯的文字。各种文档、报告、网页中，图表、图片、表格等视觉元素与文字交织，构成了丰富而复杂的“多模态”信息流。对于现代的搜索系统而言，如何从这些异构的文档图像中精准、高效地找到所需的信息，无疑是一个核心挑战。

想象一下，你在查找一份包含大量图表的市场分析报告，或者一份带有产品图片的说明书。传统的基于文本的搜索往往力不从心，难以理解视觉内容所传达的关键信息。因此，构建一个能够将不同内容类型，如文字、图片以及结构化的视觉元素，映射到同一个共享表征空间的“多模态嵌入模型”，变得尤为重要。它能让系统像人类一样，同时理解并关联文本和图像，实现统一的信息检索。

近期，虽然我们看到了诸如Llama-Nemotron-Embed-VL-1B这类注重效率和存储的单向量嵌入模型，它将整个查询和文档编码成一个向量，简洁而高效。但与此同时，学术界和产业界对“多向量、晚期交互式嵌入架构”的研究热情日益高涨。这类模型能够提供更细粒度的多向量交互，更深入地捕捉词元（tokens）之间的语义关系。它们在多模态基准测试中展现出卓越的准确性。

就在这样的背景下，新媒网跨境获悉，英伟达（NVIDIA）正式推出了Nemotron ColEmbed V2系列模型。这一系列模型专注于高精度的多模态检索，提供了3B、4B和8B三种不同规模的版本。它们采用了统一的文本-图像检索方法，并且在ViDoRe V1、V2和V3等多个基准测试中，均取得了行业领先的优异成绩。

Nemotron ColEmbed V2系列的亮点不胜枚举。其中，nemotron-colembed-vl-8b-v2、nemotron-colembed-vl-4b-v2和llama-nemotron-colembed-vl-3b-v2这些模型在2026年2月3日的ViDoRe V3基准测试中，分别位列第一、第三和第六，成为各自参数量级别中的佼佼者。ViDoRe V3是一个专门为企业级视觉文档检索应用设计的综合性评估基准，能够全面反映模型在实际复杂场景中的表现。Nemotron ColEmbed V2在此取得的佳绩，充分证明了其卓越的性能。
late_interaction

ColBERT模型首次引入的“晚期交互”（late interaction）机制，在Nemotron ColEmbed V2系列中得到了进一步的扩展，被巧妙地应用到多模态环境中。这使得模型能够实现查询和文档中各种词元（无论是文本还是视觉词元）之间的细粒度交互。如同图片所示，每一个查询词元嵌入都会与所有文档词元嵌入进行交互，并通过“最大相似度”（MaxSim）操作来选出最高的相似度值。随后，这些最高的相似度值会被累加起来，最终生成一个总体的相关性得分。

这种方法虽然需要存储整个文档库（包括文本和视觉部分）的词元嵌入，从而增加了存储需求，但其带来的精准度提升是显而易见的。在推理阶段，系统会计算查询词元嵌入，并利用同样的MaxSim操作与已存储的文档嵌入进行匹配，实现高效且准确的检索。

新媒网跨境了解到，Nemotron ColEmbed V2系列模型主要面向那些对精准度有极高要求，并致力于探索视觉文档检索应用的科研人员。这与上个月发布的1B单向量模型有所不同，后者更侧重于商业环境中对最小存储和高吞吐量的需求。Nemotron ColEmbed V2在多模态RAG（检索增强生成）系统中扮演着至关重要的角色，使得文本查询能够准确地检索出包含所需信息的文档图像，例如页面、文字、图表、表格或信息图。这些模型能够为输入的查询和文档输出多向量嵌入，未来有望广泛应用于多媒体搜索引擎、跨模态检索系统以及能够理解丰富输入的对话式人工智能等领域。

ViDoRe V3作为一项新兴的行业基准，旨在为多模态企业文档检索树立新的行业标准。它解决了生产级RAG系统中的一个关键挑战：即从复杂且视觉信息丰富的文档中准确提取信息。nemotron-colembed-vl-8b-v2模型凭借其强大的多模态文档检索能力，在ViDoRe V3排行榜上脱颖而出，位居第一，为行业的准确性设立了新的标杆。以下是ViDoRe V3公共和私有任务中，视觉文档检索（页面检索）的平均NDCG@10得分情况：

Model	Emb_dim	# of parameters	ViDoRe V3 Accuracy (NDCG@10)
nemotron-colembed-vl-8b-v2	4096	8.8B	63.42
nemotron-colembed-vl-4b-v2	2560	4.8B	61.54
llama-nemotron-colembed-vl-3b-v2	3072	4.4B	59.79
lama-nemoretriever-colembed-3b-v1	3072	4.4B	57.26

从上述数据我们清晰可见，Nemotron ColEmbed V2系列模型的表现力十足，特别是8.8亿参数的nemotron-colembed-vl-8b-v2模型，其高达63.42%的准确率令人印象深刻。这不仅仅是数字上的超越，更意味着在实际的企业应用中，它能够显著提升信息检索的效率和质量，帮助企业用户更快、更准地找到关键信息，从而优化决策流程，推动生产力进步。这种对精准度的极致追求，与我们社会对高质量信息服务的需求不谋而合。

在模型架构方面，llama-nemotron-colembed-vl-3b-v2是一款基于Transformer架构的多模态嵌入模型，它构建于谷歌（Google）的siglip2-giant-opt-patch16-384以及美国Meta公司的Llama-3.2-3B等视觉语言模型之上。而nemotron-colembed-vl-8b-v2和nemotron-colembed-vl-4b-v2多模态编码模型，则分别基于清华大学和阿里系的Qwen3-VL-8B-Instruct和Qwen3-VL-4B-Instruct构建。这些选择显示出英伟达在集成前沿技术方面的开放性和实力。

值得一提的是，Nemotron ColEmbed V2在架构上进行了一些关键性的改进。首先，我们的模型采用了“双向自注意力机制”，而非传统的语言模型解码器中常见的单向因果自注意力。这意味着模型在处理输入序列时，能够同时考虑到前后的所有信息，从而学习到更丰富、更全面的表征。其次，它沿用了ColBERT风格的“晚期交互机制”，对于每一个输入词元，模型都会输出一个n维浮点数嵌入向量，这个n值由模型的隐藏层大小决定，确保了细粒度的信息捕捉。

在训练方法上，nemotron-colembed-vl-8b-v2、nemotron-colembed-vl-4b-v2和llama-nemotron-colembed-vl-3b-v2模型都采用了“双编码器架构”进行独立训练。简单来说，就是使用嵌入模型独立编码一对句子（例如，一个查询和一份文档）。通过“对比学习”的方式，模型被训练来最大化查询与包含答案的文档之间的晚期交互相似度，同时最小化查询与那些对回答问题无用的“负例”文档之间的相似度。这种正负样本的区分，是提升检索效果的关键。

具体来看，llama-nemotron-colembed-vl-3b-v2模型采用了两阶段的训练流程：首先，它利用1250万对文本问答数据进行微调；随后，再用文本-图像对数据进行二次微调。而nemotron-colembed-vl-8b-v2和nemotron-colembed-vl-4b-v2模型则直接进入第二阶段，仅使用文本-图像对进行微调。新媒网跨境认为，我们的训练数据集包含了纯文本和文本-图像混合的数据，并且我们还采用了NV-Retriever论文中介绍的“正向感知硬负例挖掘”方法，进一步优化了检索性能，使其能够更好地应对真实世界的复杂性。

相较于V1版本，Nemotron ColEmbed V2还有多项关键改进。首先是先进的“模型融合技术”：它利用训练后模型融合技术，将多个微调检查点的优势相结合。这使得模型在不增加任何额外推理延迟的情况下，能够提供如同集成模型一般的准确性稳定性。其次是“增强的合成数据”：我们显著丰富了训练混合数据中多样化的多语言合成数据，从而在不同语言和复杂文档类型之间改善了语义对齐，这对于处理全球化信息流至关重要。
modelperfs_vidorev3

Nemotron ColEmbed V2模型的推出，标志着高精度文本-图像检索领域迈出了重要一步，它在ViDoRe V1、V2和V3等基准测试中取得了业界领先的成果。目前，3B、4B和8B模型变体的可用性，为未来在多模态检索应用中的研究和高级实验奠定了坚实基础。这不仅是技术上的突破，更是对生产力的一次赋能。在国家大力推动数字经济发展的当下，此类高效、精准的信息检索技术，无疑将成为企业智能化升级、提升国家治理能力的重要支撑。它有助于我们更好地管理和利用海量数据，促进知识共享与创新，服务于构建智慧社会的目标。

Nemotron ColEmbed V2模型的发布，无疑为各行各业带来了全新的可能性。无论是在金融分析中快速从财报图表中提取关键数据，还是在医疗领域高效检索包含影像资料的病历，亦或是在教育和文化领域更便捷地获取图文并茂的知识内容，Nemotron ColEmbed V2都将发挥其独特的价值。它让信息检索不再是简单的关键词匹配，而是深度理解内容，实现人机协同的更高效率。

对于开发者和研究者而言，现在正是开启Nemotron ColEmbed V2模型探索之旅的绝佳时机。您可以通过Hugging Face平台下载nemotron-colembed-vl-8b-v2、nemotron-colembed-vl-4b-v2和llama-nemotron-colembed-vl-3b-v2等模型。如需了解更多关于英伟达NeMo Retriever系列Nemotron RAG模型的信息，可访问产品页面，或从NVIDIA NGC获取微服务容器。这是一个绝佳的机会，让您能在自己的应用程序和工作流程中探索业界领先的检索技术。此外，您还可以尝试使用英伟达企业级RAG蓝图，它正是由赢得ViDoRe V3竞赛的Nemotron RAG模型所驱动，助您在实践中体验顶尖技术的力量。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/nvidia-v2-model-6342-vidore-v3-first.html