英伟达Nano炸裂！小模型100万上下文，吞吐狂飙3.3倍！

2025年，我们见证了人工智能（AI）代理的崛起，它们开始在各行各业展现出惊人的潜力。而展望2026年，AI领域的发展趋势已悄然指向多代理（multi-agent）系统，这无疑是AI应用迈向更高阶段的关键一步。为了实现这一跨越，我们亟需轻量级、高精度且能生成大量内容的模型。然而，这条技术路径也伴随着艰难的权衡。

小型模型通常运行速度快、成本低，但在推理深度、系统鲁棒性以及处理长上下文的能力上往往有所欠缺，难以满足先进多代理系统的需求。反观大型模型，虽然在精度上表现出色，但当多个代理并行运行时，其速度和成本劣势就变得尤为突出。随着代理系统规模的不断扩大，推理成本急剧上升，上下文窗口成为瓶颈，系统可靠性也面临挑战，这使得模型效率变得至关重要。

正是在这样的背景下，全球领先的科技企业英伟达（NVIDIA）推出了其Nemotron 3系列模型中的又一力作——NVIDIA Nemotron 3 Nano 30B A3B。新媒网跨境了解到，Nemotron 3 Nano的诞生，正是为了在性能与效率之间找到完美的平衡点。这款模型采用了混合式Mamba-Transformer专家混合（MoE）架构，并拥有高达100万个token的上下文窗口。这使得开发者能够构建出高吞吐量、高可靠性的代理，这些代理不仅精度更高、扩展性更强，还能在复杂的、长流程的多步骤任务中执行专业的子任务。
A two-panel figure comparing Nemotron 3 Nano with Qwen3-30B and GPT-OSS-20B. The left panel displays accuracy scores, showing Nano equal or higher across benchmarks. The right panel displays inference throughput bars, where the Nano is significantly taller; illustrating 3.3x speed over Qwen3 and 2.2x over GPT-OSS.
图1：Nemotron 3 Nano在保持或超越Qwen3-30B和GPT-OSS-20B精度的同时，提供了显著更高的吞吐量。在单块H200 GPU上，8K输入/16K输出的配置下，Nano的吞吐量是Qwen3-30B的3.3倍，是GPT-OSS-20B的2.2倍。

Nemotron 3 Nano的核心亮点不胜枚举，这些创新共同构筑了其卓越的性能。它采用了混合式Mamba-Transformer MoE架构，其中Mamba-2负责处理长上下文和实现低延迟推理，而Transformer的注意力机制则专注于高精度、细粒度的推理任务。这种巧妙的结合，让模型在处理大规模数据和复杂逻辑时游刃有余。

这款模型总参数量达到316亿，但每个token的激活参数量仅为36亿左右，这样的设计极大地提升了吞吐量并降低了延迟。在推理效率方面，Nemotron 3 Nano表现卓越，比前代Nemotron Nano 2快了四倍，甚至比同等规模的其他领先模型快了3.3倍，这无疑是行业内的一大突破。

新媒网跨境认为，Nemotron 3 Nano在推理准确性方面达到了业界领先水平，无论是在通用推理、编程、工具使用还是多步骤代理任务中，都能展现出色的表现。为了更好地满足开发者的需求，它还提供了推理开关（ON/OFF）模式以及可配置的思考预算，这意味着开发者可以精确控制模型“思考”所消耗的token数量，从而让推理成本变得可预测且易于管理。

100万token的上下文窗口是Nemotron 3 Nano的另一大优势。这个超长的上下文能力，使其成为处理长流程工作流、检索增强任务以及需要持久化记忆场景的理想选择。无论是分析冗长的法律文件、深度阅读科研报告，还是进行复杂的代码调试，Nemotron 3 Nano都能轻松应对，为用户带来前所未有的便利。

更值得称道的是，Nemotron 3 Nano秉持开放原则，其权重、数据集、训练配方以及框架全部对外开放。此外，它还提供了一整套开放数据堆栈，包括3万亿个新的高质量预训练token、1300万个跨学科后训练样本、10多个涵盖90多万个数学、编程、推理和工具使用任务的强化学习（RL）环境，以及约11000个代理安全追踪数据。这些丰富的资源为开发者提供了坚实的基础。

在部署方面，Nemotron 3 Nano也做到了便捷高效。它支持通过vLLM和SGLang进行无缝服务，并可通过OpenRouter、主流推理服务提供商以及build.nvidia.com端点进行集成。这款模型以英伟达开放模型许可（nvidia-open-model-license）发布，进一步推动了AI技术的普及和应用。

Nemotron 3 Nano（30B/A3B）被誉为英伟达最新推出的小巧而强大的推理模型。它在前代Nemotron Nano 2的成功基础上，继承了混合式Mamba-2 + Transformer架构、推理开关模式以及明确的思考预算功能。在此基础上，它引入了重大架构升级，即稀疏专家混合（MoE）设计。

从宏观角度来看，Nemotron 3 Nano拥有316亿总参数，但由于采用了MoE路由机制，每个token的激活参数仅为36亿左右。它还拥有一个混合层堆栈，其中交错排列着Mamba-2层和分组查询注意力（GQA）Transformer层。模型内部包含一个学习到的多层感知器（MLP）路由器，在每次前向传递中激活128个专家中的6个，这在确保效率的同时，也提升了推理的准确性。

这种独特的组合使得Nemotron 3 Nano在推理质量方面能够媲美大型模型，同时又保持了轻量级架构所应有的速度和成本效益。这无疑为AI应用的普及和发展开辟了新的道路，让更多企业和开发者能够享受到高性能AI模型带来的便利。
Diagram of the Nemotron-Nano-3-30B-A3B architecture showing four sequential blocks. Each block contains repeating Mamba-2 layers and MoE units, with attention layers interspersed in the first and third blocks. The blocks repeat x5, x3, x1, and x4 times respectively, illustrating the hybrid Mamba-Transformer design with MoE layers replacing FFNs.
图2：Nemotron 3 Nano架构。它采用了与Nemotron Nano v2相似的混合式Mamba-Transformer骨干网络，但用稀疏MoE层替代了标准的Feed-Forward Network (FFN)层，显著提升了效率和可扩展性。Nemotron 3 Nano专为代理、推理、工具使用和聊天任务而设计，支持高达100万token的上下文长度。它延续了本年度早些时候发布的Nemotron模型家族，持续向更准确、更高效的开放模型迈进，以支持推理和代理开发。

英伟达Nemotron系列开放模型的设计初衷，正是为了推动高级推理和代理任务的发展，力求在准确性上达到领先水平，并在效率上实现同类最佳。其发展路线图清晰地展示了这一愿景：Nemotron 1在Llama模型的基础上，进一步增强了推理能力；Nemotron 2则引入了混合式Mamba-Transformer架构，带来了顶尖的准确性和效率；而最新的Nemotron 3，则在混合设计中融入了稀疏专家混合（MoE）技术，从而在准确性、吞吐量、延迟以及整体计算效率方面实现了再次飞跃。这些迭代进步，共同构筑了Nemotron系列在AI领域的核心竞争力。
The roadmap graphic illustrates the evolution of Nemotron model families: Nemotron 1 enhances Llama models with stronger reasoning capabilities, Nemotron 2 introduces a hybrid Mamba-Transformer architecture, delivering state-of-the-art accuracy and efficiency, Nemotron 3 adds sparse MoE to the hybrid design, further improving accuracy, throughput, latency, and overall compute efficiency.
图3：NVIDIA Nemotron开放模型家族专为高级推理和代理任务而设计，提供领先的准确性和同类最佳的效率。

Nemotron 3 Nano的构建过程凝聚了多阶段的精心设计与实践。它融合了大规模预训练、专业的监督微调（SFT）以及先进的强化学习技术，旨在全面提升模型的推理能力和代理行为表现。

在预训练阶段，Nemotron 3 Nano使用了高达25万亿token的语料库，其中包含了2.5万亿个全新的Common Crawl token。这个庞大的数据集涵盖了网页爬取数据、代码和数学内容、维基百科、学术文本以及15种语言的多语言内容。预训练过程分为两个阶段：第一阶段占据了总训练量的94%，注重数据多样性，旨在最大化模型的覆盖范围和泛化能力；第二阶段则聚焦于剩余的6%高质量数据源，如维基百科等，以此精炼模型的准确性和一致性。这种分阶段的策略，确保了模型在广度和深度上都能得到充分的训练。

为了拓展Nemotron 3 Nano的上下文长度，研发团队引入了持续预训练（CPT）阶段，并将其序列长度设定为512K。通过结合512K和4K序列长度的训练数据，模型在保持原有短基准测试分数的同时，显著延长了上下文处理能力。在此过程中，研究人员还特别融入了合成数据，这些数据旨在支持长距离检索、多跳推理、多文档信息聚合以及训练不同阶段的相关能力。英伟达正逐步将这些预训练数据集的很大一部分在Hugging Face上开放，为全球开发者提供宝贵的资源。

这些新增的数据，为Nemotron预训练系列贡献了3万亿个新token，进一步提升了代码、数学和推理任务的覆盖范围和保真度。通过增强的合成扩充和标注流程，数据密度和结构得到了优化，从而提高了训练效率，并直接促进了Nemotron 3 Nano在质量上的卓越表现。从Nemotron 3的开发中，我们深刻认识到，数量庞大而缺乏质量的数据并无太大价值。因此，我们的预训练数据策略持续向高效数据倾斜：更智能的过滤机制、经过重写和改进的样本，以及将近5万亿个被先前流水线可能丢弃的数学和代码数据成功抢救回来。这种对“信号而非噪音”的聚焦，直接促成了更智能、更精简模型的诞生，这些模型在训练和运行成本上更低，却丝毫未牺牲准确性。

在模型的后训练阶段，英伟达采用了监督微调（SFT）以及两个独特的强化学习阶段：可验证奖励强化学习（RLVR）和基于人类反馈的强化学习（RLHF）。这些阶段的核心目标是让模型能够更好地适应代理工作流，掌握工具使用技能，实现高质量的推理，并优化聊天任务的表现。

监督微调（SFT）的配方在Nano v2的基础上得到了显著改进，以更好地支持复杂的代理行为。这些改进涵盖了数据集多样性的提升、数据质量的优化，以及针对多步骤和多轮推理的明确训练。值得一提的是，模型能够直接从聊天模板中学习推理开关（ON/OFF）模式：当推理模式开启时，模型进入多步骤模式，在任务中保留并构建其先前的思维链；当推理模式关闭时，模型进入多轮模式，推理内容不会跨轮次延续，确保响应的简洁性。这使得模型在不同应用场景下能够灵活地调整其行为模式，从而提供更智能、更高效的交互体验。
The graph from Artificial Analysis plots small language reasoning models on intelligence index on the y-axis and output tokens per second on the x-axis. Nemotron 3 Nano delivers the highest throughput efficiency using the hybrid MoE architecture and leading accuracy with advanced Reinforcement Learning using NeMo Gym
图4：Nemotron 3 Nano通过混合MoE架构实现了最高的吞吐量效率，并利用NeMo Gym中的高级强化学习达到了领先的准确性。

我们正逐步开放大部分SFT数据集和代码库。新发布的后训练数据也旨在通过设计提升模型的智能水平。我们新增了1300万个后训练样本，几乎是我们之前发布数量的三倍，使其成为目前公开可用的最大后训练语料库，比其他同类语料库大2.5倍。为了达到更高的推理准确性，我们融合了跨学科领域的数据，包括代码、数学、物理和化学，以创建新颖的多步骤问题，这些问题在传统的网络抓取数据中并不存在。这有助于模型在不同领域之间进行推理，解决那些通常在科学和技术进步前沿出现的问题。

在可验证奖励多环境强化学习（RLVR）阶段，Nemotron 3 Nano在多个不同的环境中同步进行训练，这些环境涵盖了数学、编程、问答、指令遵循、多步骤工具使用、多轮对话以及结构化输出等诸多领域，并采用了同步组相对策略优化（GRPO）算法。这种多环境RLVR阶段确保了模型在各个领域都能得到统一的提升，有效减少了对单一基准测试的过拟合现象，从而使得模型在实际工作流中展现出更可靠的代理行为。
This figure shows multiple different environment reward curves over training steps, showcasing how the model was learning many different capabilities simultaneously.
图5：在多个RL环境中同时进行训练，取得了统一的改进。

模型训练不仅需要海量数据，更需要一个“训练场”。英伟达是少数几个同时开放强化学习数据集和用于训练环境的开放模型提供商之一。这让开发者能够测试代理，捕捉关键的边缘情况，并有效防止模型随着时间推移出现性能漂移。在此次发布中，我们新增了10多个强化学习环境，涵盖了竞技编程、高级数学，乃至现实世界的日程安排。我们还开源了所有必要的RLVR基础设施，包括环境及其数据集和用于构建及扩展这些环境的代码。这些组件共同构成了全新的NVIDIA NeMo Gym库的基础，该库能够实现可扩展的RL环境构建。大规模训练则通过NVIDIA NeMo RL执行，这是我们高性能的强化学习库。

在基于人类反馈的强化学习（RLHF）阶段，为了进一步提升模型的对话质量，英伟达利用GRPO在Qwen3-235B-A22B上训练了一个生成式奖励模型（GenRM）。这个GenRM模型能够根据对话历史、新的用户查询以及两个候选助手回复，明确地分析每个回复的优缺点，生成单独的帮助性评分，并对候选回复进行相对排序。这些奖励信号随后被用于RLHF阶段，以提升Nemotron 3 Nano的帮助性、连贯性、正确性以及整体聊天体验。结合SFT+RLVR+RLHF的后训练流程，最终打造出了Nemotron 3 Nano 30B-A3B模型。

随着模型逐步演变为使用工具的多步骤代理，它们也面临着全新的安全和防护挑战。为支持负责任的部署，我们发布了一个代理安全数据集，其中包含近11000条来自真实工具使用工作流的已标注跟踪数据。这为开发者提供了评估、诊断和缓解安全风险所需的数据，以便在代理系统投入生产之前确保其安全性。

在Nemotron 3 Nano的开发过程中，我们深刻认识到现有强化学习（RL）工具的局限性。训练大型推理模型时，RL面临诸多挑战：多步骤的模拟过程难以协调，工具集成常常脆弱，协调逻辑可能与训练循环设计产生冲突，大规模收集模拟数据缓慢且困难，并且许多高质量的RL环境都是封闭且专有的。这些因素使得有意义的RL训练在过去只有大型AI实验室才能实现。

为了克服这些挑战，英伟达构建了NeMo Gym，一个用于构建和扩展RL环境的开源标准化库。NeMo Gym为Nemotron 3 Nano的强化学习管道提供了强大支持，如今它为开发者带来了：随时可用的RL环境，涵盖数学、代码、工具使用、多轮推理和代理工作流；构建具有可验证奖励逻辑的自定义RL环境的能力；与NeMo RL及其他训练框架（如TRL，Unsloth，以及正在开发中的VeRL）的生态系统互操作性；高吞吐量模拟编排，支持大规模RL训练；以及在自己的模型上进行RL的实用途径。

NeMo Gym是一个灵活的开源库，用于构建和运行RL训练环境。它是更广泛的NVIDIA NeMo软件套件的一部分，用于端到端模型训练，并为设计、运行和扩展复杂的RL环境提供基础设施。通过Nemotron 3模型家族的开发，NeMo Gym经过了实战检验，它包括核心环境开发基础设施，一个不断增长的即用型训练环境集合，以及RLVR中使用的数据集，并与NeMo RL集成，后者是高性能高效的RL训练引擎，支持高级RL训练算法、端到端FP8训练和异步RL。

图6：NeMo Gym如何融入RL训练循环：RL训练框架（例如NeMo RL）将任务提示发送到NeMo Gym，NeMo Gym作为一个独立的HTTP服务集运行。在NeMo Gym内部，代理服务器通过协调策略模型服务器（生成）和外部资源服务器（工具和奖励）来编排模拟。NeMo Gym将模型轨迹和奖励返回给训练框架，然后训练框架更新并重新拟合策略模型。通过将RL环境与RL训练框架解耦，NeMo Gym可以与许多流行的训练框架（如NeMo RL）无缝协作，支持高吞吐量、并发的模拟收集，并支持大规模分布式RL训练。这种关注点分离使得扩展RL工作流和随着训练目标演变调整环境变得容易。为了加速实验，NeMo Gym随附了一个不断扩展的RL Hub——一个即用型特定领域环境目录，开发者可以立即使用或进行扩展。目前的领域包括数学、编码、指令遵循、多步骤工具使用、多轮结构化对话。实践者可以立即在这些环境上微调模型，重用社区贡献，或发布自己的模型。

Nemotron 3 Nano（30B A3B）的推出，无疑为业界带来了前沿的准确性与卓越的成本效益。这款模型不仅在数学、编程、多步骤工具调用以及多轮代理工作流中表现出色，还继承了Nemotron经典的思维开启/关闭模式以及思维预算控制功能，赋予开发者根据不同任务精确调整模型思考程度的能力。它在保持领先开源模型同等规模的同时，实现了高达3.3倍的吞吐量提升，并支持100万个token的上下文窗口，在处理长上下文推理基准测试中展现出优异性能。

通过此次发布，英伟达还隆重推出了NeMo Gym，其中包含了我们在Nemotron 3训练过程中开发的即用型训练环境，以及构建您自己的训练环境和扩展模拟收集的基础设施。新媒网也期待，Nemotron 3 Nano能带来更多创新。

我们正逐步开放Nemotron 3 Nano的全部模型权重、完整的训练配方（包括SFT、RLVR和RLHF），以及训练管道中使用的绝大部分数据集（预训练和后训练），同时也会提供支撑Nemotron 3的训练框架。这意味着，您研究所需、复现模型、或进一步扩展的一切资源都将公开可用。

现在，您就可以开始使用Nemotron 3 Nano了：您可以前往Hugging Face下载模型，或者通过OpenRouter或build.nvidia.com即时运行查询。若需大规模部署，我们提供了vLLM、TRT-LLM和SGLang的部署指南。同时，该模型还可用于英伟达RTX AI PC和工作站等边缘设备，并通过Llama.cpp、LM Studio和Unsloth在DGX Spark上进行实验、开发和运行。如果您渴望深入了解Nemotron 3 Nano的架构、数据集和基准测试，欢迎查阅完整的技术报告。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/nvidia-nano-ai-1m-context-33x-speed-boost.html