NVIDIA发布Nemotron 3:百万Token超长上下文,Nano版已上线!

2025-12-15AI自主智能体

NVIDIA发布Nemotron 3:百万Token超长上下文,Nano版已上线!

NVIDIA公司近日面向全球人工智能(AI)领域发布了其全新的Nemotron 3系列开放模型家族,其中包括Nemotron 3 Nano、Super和Ultra。此举旨在为日益复杂的智能体(Agentic)AI系统提供更高效、精确且具备长上下文理解能力的推理支持。Nemotron 3系列模型的推出,标志着NVIDIA在开放AI模型生态建设方面迈出了重要一步,专注于满足多智能体协同工作、处理大规模数据输入以及实现长时间跨度推理的需求。
图片

智能体AI系统在当今AI应用中扮演的角色愈发关键,它们通常由检索器、规划器、工具执行器和验证器等多个相互协作的智能体构成,在大型上下文和长时间跨度内协同工作。这类系统对模型提出了更高要求,包括快速的吞吐量、强大的推理准确性以及对大规模输入的持久一致性。此外,开发者还需要模型的开放性,以便进行定制、扩展和部署。NVIDIA Nemotron 3系列模型正是为应对这些挑战而设计,其核心在于引入了混合Mamba-Transformer专家混合(MoE)架构、在交互式环境中的强化学习(RL)训练,以及支持高吞吐量和长周期多智能体应用推理的原生100万个令牌(token)上下文窗口。

Nemotron 3系列的关键创新点

Nemotron 3系列模型通过多项创新,直接响应了智能体系统的发展需求:

  1. 混合Mamba-Transformer MoE架构: 结合了Mamba的高效序列建模、Transformer的精确推理以及MoE的可扩展计算效率,旨在提供卓越的测试时间效率和长程推理能力。
  2. 多环境强化学习: 围绕真实世界的智能体任务进行设计,通过在NVIDIA NeMo Gym的多个环境中进行强化学习后训练,确保模型在复杂工作流程中的可靠表现。
  3. 100万Token上下文长度: 支持对大型代码库、长篇文档、扩展对话和聚合检索内容进行持续推理,显著提升了事实基础和减少了上下文碎片化问题。
  4. 开放、透明的训练流程: 包含数据、权重和训练配方,为开发者提供了充分的透明度和可定制性。
  5. Nemotron 3 Nano模型即时可用: 配备了即用型开发指南,而Nemotron 3 Super和Ultra模型计划于2026年上半年推出,将进一步增强推理深度和效率。

Nemotron 3模型的核心技术解析

混合Mamba-Transformer MoE架构

Nemotron 3将三种核心架构整合到一个统一的骨干网络中。Mamba层擅长以最小的内存开销跟踪长程依赖关系,即使处理数十万个令牌也能保持持续性能。Transformer层则通过精细的注意力机制进行补充,捕捉代码操作、数学推理或复杂规划等任务所需的结构和逻辑关系。

MoE组件则在不增加密集计算成本的前提下,有效扩大了模型的参数规模。每个令牌仅激活部分专家,从而降低了延迟并提高了吞吐量。这种架构特别适用于智能体集群,其中许多轻量级智能体必须并发运行,各自生成计划、检查上下文或执行基于工具的工作流。
图片

Nemotron 3的混合架构,通过交错Mamba-2和MoE层与少量自注意力层,在保持先进准确性的同时,最大化了推理吞吐量。

多环境强化学习训练

为了使Nemotron 3与真实的智能体行为更加契合,该模型在NeMo Gym(一个用于构建和扩展RL环境的开源库)中的多个环境中进行了强化学习后训练。这些环境评估模型执行一系列动作的能力,这超越了仅仅单轮响应的范畴,例如生成正确的工具调用、编写功能代码或制定满足可验证标准的多部分计划。

这种基于轨迹的强化学习训练使模型在多步骤工作流程中表现出更高的可靠性,减少了推理漂移,并能够处理智能体流水线中常见的结构化操作。由于NeMo Gym是开源的,开发者可以重复使用、扩展甚至创建自己的环境,以定制特定领域的模型。这些环境和RL数据集也已随NeMo Gym一起开放,供有兴趣训练自己模型的用户使用。
图片

Nemotron 3 Nano通过混合MoE架构实现了更高的吞吐效率,并结合NeMo Gym先进的强化学习技术,达到了卓越的准确性。

100万Token上下文长度

Nemotron 3的100万个令牌上下文窗口,使得模型能够对大型代码库、长篇文档、扩展对话以及聚合检索内容进行持续推理。智能体不再依赖碎片化的分块启发式方法,而是可以在一个上下文窗口中保留完整的证据集、历史缓冲区和多阶段计划。

这种长上下文窗口的实现得益于Nemotron 3的混合Mamba-Transformer架构,该架构能够高效处理极长的序列。MoE路由也降低了每个令牌的计算成本,使得在推理时处理这些长序列变得实用。对于企业级检索增强生成、合规性分析、多小时智能体会话或统一存储库理解等应用场景,100万个令牌的窗口显著增强了事实基础,并减少了上下文碎片化问题。

Nemotron 3 Super和Ultra的未来技术展望

NVIDIA计划于2026年上半年推出Nemotron 3 Super和Ultra,这两款模型将引入更为先进的技术。

潜在MoE(Latent MoE)

Nemotron 3 Super和Ultra将引入潜在MoE技术。在这种架构中,专家们在共享的潜在表示上操作,然后输出再投影回令牌空间。这种方法使得模型能够以相同的推理成本调用多达四倍的专家,从而在细微语义结构、领域抽象或多跳推理模式方面实现更好的专业化。
图片

标准MoE与潜在MoE架构对比。在潜在MoE中,令牌被投影到更小的潜在维度进行专家路由和计算,这降低了通信成本,同时实现了更多专家和更高的每字节准确性。

多令牌预测(Multi-token prediction - MTP)

多令牌预测技术使得模型能够在一次前向传播中预测多个未来令牌,从而显著提高了长推理序列和结构化输出的吞吐量。对于规划、轨迹生成、扩展的思维链或代码生成等任务,MTP技术可以降低延迟并提高智能体的响应速度。
图片

多令牌预测(MTP)技术在训练过程中可将准确率提高约2.4%,同时在推理时实现推测解码加速。

NVFP4训练

Super和Ultra模型将采用NVIDIA的4位浮点格式NVFP4进行预训练。NVFP4在训练和推理过程中提供了出色的成本效益比和准确性。Nemotron 3模型为此设计了更新的NVFP4配方,以确保在NVIDIA的25万亿令牌预训练数据集上进行准确稳定的预训练。在预训练期间,大部分浮点乘加操作都在NVFP4格式下完成。

持续的开放模型承诺

NVIDIA通过Nemotron 3再次强调了其对透明度和开发者赋能的承诺。模型的权重将根据NVIDIA开放模型许可协议开放发布。NVIDIA的合成预训练语料库,规模接近10万亿个令牌,也开放供检查和再利用。开发者还可以访问Nemotron GitHub存储库中详细的训练和后训练配方,从而实现完全的可复现性和定制化。

新媒网跨境获悉,Nemotron 3 Nano模型目前已正式上线,为构建高吞吐量、长上下文的智能体系统奠定了基础。Nemotron 3 Super和Ultra模型计划于2026年上半年推出,届时将通过更深层次的推理能力和效率优化的架构进一步扩展这一基础。

Nemotron 3 Nano:即刻可用

Nemotron 3 Nano作为Nemotron 3系列的首个模型,目前已面向全球开发者开放。该模型包含300亿总参数和30亿活跃参数,专为DGX Spark、H100和B200 GPU设计,旨在帮助开发者构建Nemotron 3系列中最具效率的模型。关于Nemotron 3 Nano的技术细节,开发者可以在Hugging Face博客或其技术报告中获取,了解其在多智能体任务中的有效性、透明度和可定制性。
图片

在Artificial Analysis Intelligence Index v3.0评估中,Nemotron 3 Nano在同等规模模型中取得了52分的领先准确率。

开发者目前可以通过多种部署和开发工作流程使用Nemotron 3 Nano:

  1. 利用NVIDIA开发指南启动模型:

    NVIDIA提供了针对多个主要推理引擎的即用型开发指南:

    • vLLM开发指南:部署Nemotron 3 Nano以实现高吞吐量连续批处理和流式传输。
    • SGLang开发指南:运行针对多智能体工具调用工作负载优化的快速、轻量级推理。
    • TRT-LLM开发指南:部署完全优化的TensorRT-LLM引擎,用于低延迟、生产级环境。

    每个开发指南都包含了配置模板、性能优化建议和参考脚本,使得开发者能够在短时间内启动并运行Nemotron 3 Nano。此外,开发者可以使用Llama.cpp、LM Studio和Unsloth等主流框架和工具,在从GeForce RTX桌面和笔记本电脑到RTX Pro工作站,再到DGX Spark等任何NVIDIA GPU上开始使用Nemotron。

  2. 基于Nemotron开放训练数据集进行构建:

    NVIDIA还同步发布了模型开发过程中使用的开放数据集,为高性能、可信赖模型的构建提供了前所未有的透明度。主要的新数据集包括:

    • Nemotron-pretraining:一个全新的3万亿个令牌数据集,通过合成增强和标注流水线,丰富了代码、数学和推理的覆盖范围。
    • Nemotron-post-training 3.0:一个包含1300万个样本的语料库,用于监督微调和强化学习,为Nemotron 3 Nano的对齐和推理能力提供支持。
    • Nemotron-RL数据集:一个精选的RL数据集和环境集合,用于工具使用、规划和多步骤推理。
    • Nemotron智能体安全数据集:一个包含近1.1万个AI智能体工作流程轨迹的集合,旨在帮助研究人员评估和缓解智能体系统中新兴的安全风险。

    结合NVIDIA NeMo Gym、RL、数据设计器和评估器等开源库,这些开放数据集使开发者能够训练、增强和评估自己的Nemotron模型。

  3. 探索Nemotron GitHub:预训练与强化学习配方:

    NVIDIA维护着一个开放的Nemotron GitHub存储库,其中包含:

    • 预训练配方(已可用),展示了Nemotron 3 Nano的训练方式。
    • 用于多环境优化的RL对齐配方。
    • 数据处理流水线、分词器配置和长上下文设置。

    未来的更新将包括额外的后训练和微调配方。

    如果开发者希望训练自己的Nemotron模型、扩展Nano模型或生产特定领域的变体,GitHub存储库提供了重现关键步骤所需的文档、配置和工具。这种开放性意味着开发者可以运行模型、部署模型、检查模型的构建方式,甚至利用NVIDIA的开放资源训练自己的模型。

目前,Nemotron 3 Nano已正式推出。开发者可利用NVIDIA的开放模型、开放工具、开放数据和开放训练基础设施,着手构建长上下文、高吞吐量的智能体系统。

NVIDIA Nemotron团队正积极推动开放研究。NVIDIA将组织一场专注于提升Nemotron推理性能的社区竞赛,鼓励利用Nemotron的开放模型和数据集。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/nvidia-nemotron-3-nano-live-1m-tokens.html

评论(0)
暂无评论,快来抢沙发~
NVIDIA发布Nemotron 3系列开放模型,包含Nano、Super和Ultra,旨在为智能体AI系统提供高效推理支持。Nemotron 3采用混合Mamba-Transformer MoE架构,支持100万Token上下文,并通过强化学习训练。Nemotron 3 Nano已上线,Super和Ultra预计2026年上半年推出。
发布于 2025-12-15
查看人数 180
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。