NVIDIA王炸!8.8B模型63.42%准确率,ViDoRe V3登顶!

在当今这个信息爆炸的时代,我们每天面对的数字内容早已不再局限于单纯的文字。各种文档、报告、网页中,图表、图片、表格等视觉元素与文字交织,构成了丰富而复杂的“多模态”信息流。对于现代的搜索系统而言,如何从这些异构的文档图像中精准、高效地找到所需的信息,无疑是一个核心挑战。
想象一下,你在查找一份包含大量图表的市场分析报告,或者一份带有产品图片的说明书。传统的基于文本的搜索往往力不从心,难以理解视觉内容所传达的关键信息。因此,构建一个能够将不同内容类型,如文字、图片以及结构化的视觉元素,映射到同一个共享表征空间的“多模态嵌入模型”,变得尤为重要。它能让系统像人类一样,同时理解并关联文本和图像,实现统一的信息检索。
近期,虽然我们看到了诸如Llama-Nemotron-Embed-VL-1B这类注重效率和存储的单向量嵌入模型,它将整个查询和文档编码成一个向量,简洁而高效。但与此同时,学术界和产业界对“多向量、晚期交互式嵌入架构”的研究热情日益高涨。这类模型能够提供更细粒度的多向量交互,更深入地捕捉词元(tokens)之间的语义关系。它们在多模态基准测试中展现出卓越的准确性。
就在这样的背景下,新媒网跨境获悉,英伟达(NVIDIA)正式推出了Nemotron ColEmbed V2系列模型。这一系列模型专注于高精度的多模态检索,提供了3B、4B和8B三种不同规模的版本。它们采用了统一的文本-图像检索方法,并且在ViDoRe V1、V2和V3等多个基准测试中,均取得了行业领先的优异成绩。
Nemotron ColEmbed V2系列的亮点不胜枚举。其中,nemotron-colembed-vl-8b-v2、nemotron-colembed-vl-4b-v2和llama-nemotron-colembed-vl-3b-v2这些模型在2026年2月3日的ViDoRe V3基准测试中,分别位列第一、第三和第六,成为各自参数量级别中的佼佼者。ViDoRe V3是一个专门为企业级视觉文档检索应用设计的综合性评估基准,能够全面反映模型在实际复杂场景中的表现。Nemotron ColEmbed V2在此取得的佳绩,充分证明了其卓越的性能。
ColBERT模型首次引入的“晚期交互”(late interaction)机制,在Nemotron ColEmbed V2系列中得到了进一步的扩展,被巧妙地应用到多模态环境中。这使得模型能够实现查询和文档中各种词元(无论是文本还是视觉词元)之间的细粒度交互。如同图片所示,每一个查询词元嵌入都会与所有文档词元嵌入进行交互,并通过“最大相似度”(MaxSim)操作来选出最高的相似度值。随后,这些最高的相似度值会被累加起来,最终生成一个总体的相关性得分。
这种方法虽然需要存储整个文档库(包括文本和视觉部分)的词元嵌入,从而增加了存储需求,但其带来的精准度提升是显而易见的。在推理阶段,系统会计算查询词元嵌入,并利用同样的MaxSim操作与已存储的文档嵌入进行匹配,实现高效且准确的检索。
新媒网跨境了解到,Nemotron ColEmbed V2系列模型主要面向那些对精准度有极高要求,并致力于探索视觉文档检索应用的科研人员。这与上个月发布的1B单向量模型有所不同,后者更侧重于商业环境中对最小存储和高吞吐量的需求。Nemotron ColEmbed V2在多模态RAG(检索增强生成)系统中扮演着至关重要的角色,使得文本查询能够准确地检索出包含所需信息的文档图像,例如页面、文字、图表、表格或信息图。这些模型能够为输入的查询和文档输出多向量嵌入,未来有望广泛应用于多媒体搜索引擎、跨模态检索系统以及能够理解丰富输入的对话式人工智能等领域。
ViDoRe V3作为一项新兴的行业基准,旨在为多模态企业文档检索树立新的行业标准。它解决了生产级RAG系统中的一个关键挑战:即从复杂且视觉信息丰富的文档中准确提取信息。nemotron-colembed-vl-8b-v2模型凭借其强大的多模态文档检索能力,在ViDoRe V3排行榜上脱颖而出,位居第一,为行业的准确性设立了新的标杆。以下是ViDoRe V3公共和私有任务中,视觉文档检索(页面检索)的平均NDCG@10得分情况:
| Model | Emb_dim | # of parameters | ViDoRe V3 Accuracy (NDCG@10) |
|---|---|---|---|
| nemotron-colembed-vl-8b-v2 | 4096 | 8.8B | 63.42 |
| nemotron-colembed-vl-4b-v2 | 2560 | 4.8B | 61.54 |
| llama-nemotron-colembed-vl-3b-v2 | 3072 | 4.4B | 59.79 |
| lama-nemoretriever-colembed-3b-v1 | 3072 | 4.4B | 57.26 |
从上述数据我们清晰可见,Nemotron ColEmbed V2系列模型的表现力十足,特别是8.8亿参数的nemotron-colembed-vl-8b-v2模型,其高达63.42%的准确率令人印象深刻。这不仅仅是数字上的超越,更意味着在实际的企业应用中,它能够显著提升信息检索的效率和质量,帮助企业用户更快、更准地找到关键信息,从而优化决策流程,推动生产力进步。这种对精准度的极致追求,与我们社会对高质量信息服务的需求不谋而合。
在模型架构方面,llama-nemotron-colembed-vl-3b-v2是一款基于Transformer架构的多模态嵌入模型,它构建于谷歌(Google)的siglip2-giant-opt-patch16-384以及美国Meta公司的Llama-3.2-3B等视觉语言模型之上。而nemotron-colembed-vl-8b-v2和nemotron-colembed-vl-4b-v2多模态编码模型,则分别基于清华大学和阿里系的Qwen3-VL-8B-Instruct和Qwen3-VL-4B-Instruct构建。这些选择显示出英伟达在集成前沿技术方面的开放性和实力。
值得一提的是,Nemotron ColEmbed V2在架构上进行了一些关键性的改进。首先,我们的模型采用了“双向自注意力机制”,而非传统的语言模型解码器中常见的单向因果自注意力。这意味着模型在处理输入序列时,能够同时考虑到前后的所有信息,从而学习到更丰富、更全面的表征。其次,它沿用了ColBERT风格的“晚期交互机制”,对于每一个输入词元,模型都会输出一个n维浮点数嵌入向量,这个n值由模型的隐藏层大小决定,确保了细粒度的信息捕捉。
在训练方法上,nemotron-colembed-vl-8b-v2、nemotron-colembed-vl-4b-v2和llama-nemotron-colembed-vl-3b-v2模型都采用了“双编码器架构”进行独立训练。简单来说,就是使用嵌入模型独立编码一对句子(例如,一个查询和一份文档)。通过“对比学习”的方式,模型被训练来最大化查询与包含答案的文档之间的晚期交互相似度,同时最小化查询与那些对回答问题无用的“负例”文档之间的相似度。这种正负样本的区分,是提升检索效果的关键。
具体来看,llama-nemotron-colembed-vl-3b-v2模型采用了两阶段的训练流程:首先,它利用1250万对文本问答数据进行微调;随后,再用文本-图像对数据进行二次微调。而nemotron-colembed-vl-8b-v2和nemotron-colembed-vl-4b-v2模型则直接进入第二阶段,仅使用文本-图像对进行微调。新媒网跨境认为,我们的训练数据集包含了纯文本和文本-图像混合的数据,并且我们还采用了NV-Retriever论文中介绍的“正向感知硬负例挖掘”方法,进一步优化了检索性能,使其能够更好地应对真实世界的复杂性。
相较于V1版本,Nemotron ColEmbed V2还有多项关键改进。首先是先进的“模型融合技术”:它利用训练后模型融合技术,将多个微调检查点的优势相结合。这使得模型在不增加任何额外推理延迟的情况下,能够提供如同集成模型一般的准确性稳定性。其次是“增强的合成数据”:我们显著丰富了训练混合数据中多样化的多语言合成数据,从而在不同语言和复杂文档类型之间改善了语义对齐,这对于处理全球化信息流至关重要。
Nemotron ColEmbed V2模型的推出,标志着高精度文本-图像检索领域迈出了重要一步,它在ViDoRe V1、V2和V3等基准测试中取得了业界领先的成果。目前,3B、4B和8B模型变体的可用性,为未来在多模态检索应用中的研究和高级实验奠定了坚实基础。这不仅是技术上的突破,更是对生产力的一次赋能。在国家大力推动数字经济发展的当下,此类高效、精准的信息检索技术,无疑将成为企业智能化升级、提升国家治理能力的重要支撑。它有助于我们更好地管理和利用海量数据,促进知识共享与创新,服务于构建智慧社会的目标。
Nemotron ColEmbed V2模型的发布,无疑为各行各业带来了全新的可能性。无论是在金融分析中快速从财报图表中提取关键数据,还是在医疗领域高效检索包含影像资料的病历,亦或是在教育和文化领域更便捷地获取图文并茂的知识内容,Nemotron ColEmbed V2都将发挥其独特的价值。它让信息检索不再是简单的关键词匹配,而是深度理解内容,实现人机协同的更高效率。
对于开发者和研究者而言,现在正是开启Nemotron ColEmbed V2模型探索之旅的绝佳时机。您可以通过Hugging Face平台下载nemotron-colembed-vl-8b-v2、nemotron-colembed-vl-4b-v2和llama-nemotron-colembed-vl-3b-v2等模型。如需了解更多关于英伟达NeMo Retriever系列Nemotron RAG模型的信息,可访问产品页面,或从NVIDIA NGC获取微服务容器。这是一个绝佳的机会,让您能在自己的应用程序和工作流程中探索业界领先的检索技术。此外,您还可以尝试使用英伟达企业级RAG蓝图,它正是由赢得ViDoRe V3竞赛的Nemotron RAG模型所驱动,助您在实践中体验顶尖技术的力量。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/nvidia-v2-model-6342-vidore-v3-first.html


粤公网安备 44011302004783号 











