AI工厂核弹！英伟达算力暴涨7.5倍！

当前，人工智能技术正以惊人的速度发展，成为推动社会进步、产业升级的重要力量。在这个充满活力的时代，高性能计算芯片无疑是支撑人工智能“引擎”全速运转的核心。英伟达，作为全球领先的AI计算平台提供商，近期发布的Blackwell Ultra显卡，无疑为加速人工智能工厂的建设注入了强大动力。新媒网跨境了解到，这款芯片集成了多项前沿技术，旨在为大型AI模型训练和推理提供前所未有的性能、扩展性和效率。

Blackwell Ultra显卡基于英伟达Blackwell架构，它不仅仅是简单的迭代升级，更是一次深度融合了芯片创新与系统级集成的突破。其节能的双光罩设计、高带宽大容量的HBM3E内存子系统、第五代Tensor Core以及开创性的NVFP4精度格式，都将加速计算推向了一个新高度。接下来，我们将深入探讨这些架构上的进步，以及它们如何实实在在地提升人工智能工作负载的效率与表现。

核心创新：一体化的双光罩设计

Blackwell Ultra显卡采用了独特的双光罩设计，这意味着它由两块芯片（die）组成，并通过英伟达自有的高带宽接口（NV-HBI）互连。这个定制化的互连技术功耗极低，却能提供高达10 TB/s的惊人带宽，确保两块芯片间数据传输的畅通无阻。

这款显卡采用台积电（TSMC）4NP先进工艺制造，集成了多达2080亿个晶体管，是上一代英伟达Hopper显卡的2.6倍。尽管由两块芯片构成，但它在软件层面被英伟达CUDA编程模型视为单一加速器，极大简化了开发者的编程工作。这种设计理念带来了显著优势：

首先，它构建了一个统一的计算域，包含160个流式多处理器（SMs），提供了640个第五代Tensor Core，能实现高达15 PetaFLOPS的密集型NVFP4计算能力。其次，实现了完全一致的缓存体系，共享L2缓存，确保内存访问的高效与准确。最后，这种双光罩设计最大化了硅片的利用率，实现了每平方毫米的峰值性能，为人工智能工厂带来了前所未有的计算密度。

人工智能工厂的算力引擎：流式多处理器

正如第一张图所示，Blackwell Ultra显卡的核心在于其160个流式多处理器（SMs），这些SMs被组织在八个图形处理簇（GPC）中。每一个SM都如同一个独立的计算引擎，内部集成了多种关键组件：

每个SM都拥有128个CUDA Core，专为FP32和INT32操作而设计，同时也支持FP16/BF16等多种精度。此外，还包含了4个第五代Tensor Core，这些核心搭载了英伟达第二代Transformer引擎，并针对FP8、FP6和NVFP4等低精度格式进行了优化。为了提高数据复用率和减少片外内存流量，每个SM还配备了256 KB的Tensor内存（TMEM）。最后，特殊功能单元（SFU）则负责执行超越函数和人工智能核心运算中的特殊操作。
Diagram of Blackwell Ultra Streaming Multiprocessor (SM) architecture showing CUDA cores, Tensor Cores, TMEM, shared memory, SFUs, Tex blocks, and other SM units.

AI计算的动力源：英伟达Tensor Core

自英伟达在Volta架构中首次引入Tensor Core以来，它们彻底改变了GPU在深度学习领域的应用。不同于传统的逐元素标量或矢量运算，Tensor Core能够在一个指令周期内直接进行小矩阵乘加（MMA）操作，这与神经网络中大量存在的矩阵乘法和求和运算完美契合。

随着代际更迭，Tensor Core在功能、精度格式和并行性方面不断扩展。从Volta架构的FP16精度训练，到Ampere架构的全Warp级MMA、BF16和TensorFloat-32格式，再到Hopper架构的Warp-group MMA和FP8支持的Transformer引擎，每一步都标志着AI计算能力的飞跃。

Blackwell和Blackwell Ultra显卡将这一能力推向了新的高度，它们的第五代Tensor Core和第二代Transformer引擎为密集型和稀疏型AI工作负载提供了更高的吞吐量和更低的延迟。Blackwell Ultra显卡的160个SM中，每个SM都包含4个Tensor Core，总计达到640个Tensor Core，并且全面支持最新的NVFP4精度格式。

这些增强不仅仅体现在原始的浮点运算能力上。全新的Tensor Core与每个SM的256 KB Tensor内存（TMEM）紧密集成，确保数据尽可能靠近计算单元。它们还支持双线程块MMA操作，使得配对的SMs能够协作完成单一的MMA运算，共享操作数，从而减少冗余的内存流量。其成果是实现了更高的持续吞吐量、更优异的内存效率，以及更快的批量预训练、后训练强化学习，以及低批量、高交互性推理。

性能飞跃：NVFP4精度格式

英伟达Blackwell GPU架构中引入的全新4位浮点格式NVFP4，结合了两级缩放技术——将FP8（E4M3）微块缩放应用于16值块，并结合张量级FP32缩放。这一创新实现了硬件加速量化，相较于标准FP4，其错误率显著降低。

这一Tensor Core功能在提供接近FP8精度的同时（通常误差小于1%），将内存占用比FP8减少了约8倍，比FP16减少了约3.5倍。NVFP4在低精度AI推理的精度、效率和性能之间找到了最佳平衡点。

Blackwell Ultra显卡在密集型NVFP4计算能力上，相较于基础款Blackwell显卡实现了显著的性能提升。虽然基础架构可提供10 PetaFLOPS的NVFP4性能，但Blackwell Ultra将其提升至15 PetaFLOPS，这意味着比Blackwell显卡提高了1.5倍，更是比英伟达Hopper H100和H200显卡提升了7.5倍之多。这一巨大的提升直接惠及大规模推理任务，使得更多模型实例能够并发运行，响应时间更快，并且生成每个token的成本更低，显著降低了运行成本。
Bar chart comparing dense FP8 performance on Hopper, which includes H100 and H200 at 2 petaFLOPS, vs NVFP4 performance for Blackwell (10 petaFLOPS) vs Blackwell Ultra (15 petaFLOPS) with an arrow indicating a 7.5x increase from Hopper to Blackwell Ultra and 1.5x increase from Blackwell to Blackwell Ultra.

注意力层的加速：Softmax性能提升

现代人工智能工作负载高度依赖注意力机制，特别是在处理长输入上下文和长输出序列时，这被视为模型“思考”的关键环节。而Transformer架构中的注意力层，则对SM中SFU执行的指数、除法和其他超越运算提出了极高要求。

在Blackwell Ultra显卡中，用于注意力计算的关键指令的SFU吞吐量翻倍，使得注意力层计算速度比Blackwell显卡快了2倍。这一改进显著加速了短序列和长序列的注意力处理，尤其对于具有大上下文窗口的推理模型而言，其影响更为深远——因为Softmax阶段往往会成为延迟瓶颈。

通过加速Transformer模型内部的注意力机制，Blackwell Ultra实现了：更快的AI推理速度，降低了交互式应用中的首个token生成时间；更低的计算成本，减少了每次查询的总处理周期；更高的系统效率，每瓦特能处理更多注意力序列。

如图4所示，Blackwell Ultra中注意力层指令的加速性能提升与NVFP4精度相结合，为大型语言模型（LLM）和多模态推理带来了阶跃式的性能飞跃。
Diagram showing the attention computation pipeline with doubled SFU throughput for exponential operations and 50% faster NVFP4 during batched matrix multiplies, reducing overall Softmax latency.

应对万亿参数模型：大容量高带宽内存

Blackwell Ultra显卡不仅在计算能力上实现了飞跃，其内存容量也得到了大幅提升，以满足日益增长的AI模型对内存的严苛需求。单块Blackwell Ultra显卡配备288 GB的HBM3E显存，比H100增加了3.6倍，比Blackwell显卡也增加了50%。这一巨大的容量对于承载万亿参数模型、在不进行KV缓存卸载的情况下扩展上下文长度，以及在AI工厂中实现高并发推理至关重要。

其高带宽内存的特性包括：最大容量达到288 GB，比H100增加了3.6倍。HBM配置为8个堆栈，16个512位控制器，总带宽达8192位。带宽高达8 TB/s，比H100的3.35 TB/s提升了2.4倍。
Bar chart comparing GPU HBM capacity: Hopper H100 (80 GB), Hopper H200 (141 GB), Blackwell (192 GB), and Blackwell Ultra (288 GB), with an arrow labeled “3.6x” between Hopper and Blackwell Ultra.

这一庞大的内存容量使得：能够完整驻留超过3000亿参数的模型，无需进行内存卸载；为Transformer模型提供了更长的上下文长度，扩展了KV缓存容量；提高了计算效率，为各类工作负载带来了更高的计算与内存比。

为规模而生：先进的互连技术

Blackwell和Blackwell Ultra显卡都支持第五代英伟达NVLink技术，用于GPU之间的通信，并通过NVLink Switch实现互联。同时，NVLink-C2C技术实现了与英伟达Grace中央处理器（CPU）的连贯互连。此外，还通过x16 PCIe Gen 6接口连接到主机CPU。

NVLink 5的技术规格如下：单GPU带宽高达1.8 TB/s（18条链路，每条100 GB/s），比NVLink 4（Hopper GPU）提升了2倍。最大拓扑结构支持576个GPU在无阻塞计算结构中协同工作。在机架规模集成方面，72 GPU的NVL72配置可实现高达130 TB/s的聚合带宽。

在主机连接方面：PCIe接口为Gen6 x 16通道，提供256 GB/s的双向带宽。NVLink-C2C则实现了Grace CPU与GPU之间的内存一致性通信，带宽达到900 GB/s。下表对比了不同代际产品之间的互连技术规格。

互连技术	Hopper GPU	Blackwell GPU	Blackwell Ultra GPU
NVLink (GPU-GPU)	900	1,800	1,800
NVLink-C2C (CPU-GPU)	900	900	900
PCIe 接口	128 (Gen 5)	256 (Gen 6)	256 (Gen 6)

表1：Hopper与Blackwell、Blackwell Ultra之间的互连对比（双向GB/s）

性能与效率的协同并进

Blackwell Ultra显卡在Blackwell显卡的基础上实现了决定性的飞跃，每块芯片的NVFP4计算能力增加了50%，HBM容量也增加了50%，使得能够处理更大的模型，实现更快的吞吐量，同时不牺牲效率。加速的Softmax执行进一步提升了实际推理速度，提高了每用户每秒token数（TPS/user），并改善了数据中心每兆瓦每秒token数（TPS/MW）。每一项架构增强都是为了将用户体验和运营效率提升到新的水平而精心设计。

如图6所示，当我们将英伟达Hopper HGX H100 NVL8系统、英伟达Blackwell HGX B200 NVL8系统、英伟达Blackwell GB200 NVL72系统和英伟达Blackwell Ultra GB300 NVL72系统这两项指标进行对比时，展现出代际性的飞跃。曲线从FP8精度的Hopper NVL8开始，最终在NVFP4精度的Blackwell Ultra NVL72达到顶峰——这清晰地表明了每一次架构上的进步都将帕累托前沿推向了更高的效率和性能区间。

这些架构创新不仅改善了AI推理的经济性，更重新定义了AI工厂的设计潜力——提供比以往任何英伟达平台更多的模型实例、更快的响应速度和每兆瓦更高的产出。

企业级特性

Blackwell Ultra显卡不仅仅是追求原始性能，它还融入了多项企业级功能，旨在简化操作、强化安全性，并在大规模部署中提供可靠的性能。

在高级调度和管理方面，其增强型GigaThread引擎提供了新一代的工作调度器，显著提高了上下文切换性能，并优化了所有160个SM之间的工作负载分配。多实例GPU（MIG）功能允许将Blackwell Ultra显卡划分为不同大小的MIG实例，例如，管理员可以创建两个各140 GB内存的实例，或四个各70 GB内存的实例，甚至七个各34 GB内存的实例，从而实现安全的多租户环境和可预测的性能隔离。

在安全性和可靠性方面，Blackwell Ultra支持机密计算和安全AI，为敏感AI模型和数据提供高性能保护。它将基于硬件的可信执行环境（TEE）扩展到GPU，并率先在Blackwell架构中引入TEE-I/O功能和内联NVLink保护，在加密模式下仍能保持接近未加密模式的吞吐量。此外，先进的英伟达远程验证服务（RAS）引擎是一个AI驱动的可靠性系统，能够监控数千个参数，预测潜在故障，优化维护计划，从而最大限度地提高大规模部署中的系统正常运行时间。

Blackwell Ultra还集成了专门的引擎，以满足现代AI工作负载对多模态数据处理的需求：

视频和JPEG解码方面，英伟达视频解码器（NVDEC）和英伟达JPEG解码器（NVJPEG）是专用的固定功能硬件单元，用于高吞吐量的图像和视频处理。NVDEC支持AV1、HEVC和H.264等现代编解码器，可以直接在GPU上进行批量或实时视频解码，无需占用CUDA Core。NVJPEG则通过硬件加速JPEG解压缩，显著提升了大规模图像处理流程的速度。这两个引擎都通过英伟达DALI（数据加载库）整合到AI训练和推理工作流中，用于图像增强、数据集预处理和多模态模型输入准备等任务。

解压缩引擎则提供硬件加速的数据解压缩能力，吞吐量高达800 GB/s，有效降低了CPU开销，加速了分析工作负载中压缩数据集的加载速度。英伟达nvCOMP库使得解压缩引擎的编程变得便携高效。

英伟达GPU芯片对比摘要

为了更直观地展现Blackwell Ultra的进步，下表对比了Hopper、Blackwell和Blackwell Ultra的关键芯片规格。它突出了晶体管数量、内存容量、互连带宽和精度计算吞吐量的代际飞跃，以及注意力加速和NVFP4等架构增强。这种并列的视图表明，Blackwell Ultra如何在节点和机架层面提升性能，扩展功能，这对人工智能工厂的部署至关重要。

特性	Hopper	Blackwell	Blackwell Ultra
制造工艺	台积电 4N	台积电 4NP	台积电 4NP
晶体管数	800亿	2080亿	2080亿
每GPU芯片数量	1	2	2
NVFP4 密集	稀疏性能	–	10
FP8 密集	稀疏性能	2	4 PetaFLOPS
注意力加速 (SFU EX2)	4.5 TeraExponentials/s	5 TeraExponentials/s	10.7 TeraExponentials/s
最大HBM容量	80 GB HBM (H100) 141 GB HBM3E (H200)	192 GB HBM3E	288 GB HBM3E
最大HBM带宽	3.35 TB/s (H100) 4.8 TB/s (H200)	8 TB/s	8 TB/s
NVLink 带宽	900 GB/s	1,800 GB/s	1,800 GB/s
最大功耗 (TGP)	最高700W	最高1,200W	最高1,400W

表2：英伟达GPU芯片对比

从芯片到AI工厂：构建未来智能基石

Blackwell Ultra显卡构成了英伟达下一代AI基础设施的支柱——它为从桌面级超级芯片到完整的AI工厂机架提供了变革性的性能。

英伟达Grace Blackwell Ultra超级芯片将一个Grace中央处理器与两个Blackwell Ultra显卡通过NVLink-C2C连接，提供高达30 PFLOPS的密集型和40 PFLOPS的稀疏型NVFP4 AI计算能力。该芯片拥有1 TB的统一内存，结合了HBM3E和LPDDR5X，提供了前所未有的节点内容量。ConnectX-8 SuperNICs则提供800 GB/s的高速网络连接，是GB300 NVL 72机架级系统的基础计算组件。
Photograph of the NVIDIA Grace Blackwell Ultra Superchip board, featuring a Grace CPU surrounded by LPDDR5X memory, and two Blackwell Ultra GPUs on a single module, surrounded by HBM3E memory stacks, with integrated NVIDIA ConnectX-8 SuperNICs providing high-speed network connectivity.

英伟达GB300 NVL72机架级系统是一个液冷系统，集成了36个Grace Blackwell超级芯片，通过NVLink 5和NVLink Switch互连，使其能够实现1.1 exaFLOPS的密集型FP4计算能力。GB300 NVL72系统还将AI工厂的产出提高了50倍，相较于Hopper平台，其延迟（每用户TPS）降低了10倍，每兆瓦的吞吐量提高了5倍。GB300系统还重新定义了机架电源管理。它依赖于多种电源架配置来处理同步GPU负载的增加。英伟达的电源平滑创新——包括能量存储和消耗机制——有助于稳定训练工作负载期间的功耗。

英伟达HGX和DGX B300系统则提供了标准化的8 GPU Blackwell Ultra配置。英伟达HGX B300和英伟达DGX GB300系统将继续支持AI基础设施的灵活部署模型，同时保持完整的CUDA和NVLink兼容性，确保用户能够平稳过渡并充分利用新硬件的强大能力。

全面的CUDA兼容性：生态系统的力量

Blackwell Ultra显卡在引入下一代AI框架优化功能的同时，全面保持了与整个CUDA生态系统的向后兼容性。

在框架集成方面，它在SGLang、TensorRT-LLM和vLLM等框架中提供了原生支持，并针对NVFP4精度和双芯片架构优化了核心计算。英伟达Dynamo作为一个分布式推理和调度框架，能够智能地协调数千个GPU上的工作负载，为大规模部署提供了高达30倍的吞吐量提升。

英伟达企业级人工智能平台则是一个端到端的云原生AI软件平台，提供了优化的框架、SDK、微服务和企业级工具，用于大规模开发、部署和管理AI工作负载。

此外，Blackwell Ultra也完全兼容一系列英伟达开发工具和CUDA库，包括用于自定义核心开发的CUTLASS、用于性能分析和调优的Nsight Systems和Nsight Compute、用于精度感知图优化的Model Optimizer、用于深度学习原语的cuDNN、用于多GPU通信的NCCL，以及用于减少启动开销的CUDA Graphs。这些都确保了开发者能够无缝地利用Blackwell Ultra的强大性能。

新媒网跨境认为，英伟达Blackwell Ultra显卡为人工智能工厂奠定了坚实的基础，使其能够以前所未有的规模和效率训练并部署智能。凭借双芯片集成、NVFP4加速、海量内存容量和先进互连技术等突破性创新，Blackwell Ultra让以前在计算上不可能实现的AI应用成为现实。

随着行业从AI概念验证阶段迈向生产级AI工厂时代，Blackwell Ultra提供了强大的计算基础，将AI愿景转化为现实，并带来了无与伦比的性能、效率和可扩展性。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/17971.html