英伟达B200狂飙10.2倍！AI绘图告别龟速！

近年来，随着人工智能技术的飞速发展，AI生成内容已成为全球科技领域备受瞩目的焦点。特别是文生图（text-to-image）模型，它们正以惊人的速度革新着创意产业的面貌，让普通人也能轻松实现天马行空的想象。在这一浪潮中，高性能计算的领军者英伟达（NVIDIA）公司，与图像生成技术新锐Black Forest Labs（简称BFL）强强联手，不断在图像生成模型的性能优化上取得突破性进展，为全球的创作者和企业带来了福音。新媒网跨境获悉，两家公司在2025年携手对FLUX.1和FLUX.2系列文生图模型进行了深度优化，尤其在 Blackwell 系列数据中心GPU上实现了性能的显著提升，进一步推动了AI图像生成技术的普及与应用。

回溯2025年，英伟达与Black Forest Labs的合作始于对FLUX.1文生图模型的优化，成功在英伟达 Blackwell GeForce RTX 50 系列GPU上释放了FP4图像生成模式的强大潜力。FLUX.1 Kontext [dev]模型作为潜在扩散模型的自然延伸，验证了“上下文学习（in-context learning）”不仅在大型语言模型（LLMs）领域大放异彩，在视觉生成模型中同样大有可为。为了让更多用户能够体验到这种前沿技术带来的便利，英伟达与BFL进一步合作，通过低精度量化技术，实现了近乎实时的编辑体验。

而FLUX.2模型，则代表了文生图技术的一次巨大飞跃。它不仅能够提供多图像参考，其生成质量也达到了顶尖企业级模型的水平。然而，伴随卓越性能而来的是对计算资源的巨大需求。为了解决这一挑战，BFL、Comfy以及英伟达再次通力合作，最终实现了里程碑式的突破：将FLUX.2 [dev]模型的内存需求大幅降低了40%以上，并通过ComfyUI平台，使其能够部署在本地设备上。这项基于FP8精度的优化，使得FLUX.2 [dev]迅速成为图像生成领域最受欢迎的模型之一。

如今，FLUX.2 [dev]已经成为开放权重模型领域的“黄金标准”。在此基础上，英伟达团队与BFL合作，再次为我们带来了性能上的新突破：在英伟达最强大的 Blackwell 数据中心GPU，包括NVIDIA DGX B200和NVIDIA DGX B300上，实现了FLUX.2 [dev]模型的4位加速。这意味着，图像生成的速度将再次刷新纪录，为用户带来前所未有的流畅体验。

本文将深入探讨英伟达团队在这些先进的英伟达数据中心架构上，为加速FLUX.2 [dev]模型所采用的各项推理优化技术，并分享代码片段和上手指南。这些优化技术的综合运用，显著降低了推理延迟，使得FLUX.2 [dev]能够在数据中心GPU上实现高效部署，预示着AI图像生成技术将迎来更广阔的应用前景。

`BF16`与`NVFP4`的视觉对比：艺术与技术的完美融合

在深入探讨具体的优化细节之前，让我们先来欣赏一下FLUX.2 [dev]在默认BF16精度下生成图像的品质，并将其与采用NVFP4精度后所获得的惊人相似的结果进行对比（图1和图2）。这不仅是对技术成果的直观展示，更是对我们视觉感官的一次全新冲击。在确保卓越视觉质量的同时实现性能飞跃，这无疑是AI技术发展的一大亮点。

首张图片的提示词是：“一只猫咪在舒适的沙发上宁静地打盹。沙发坐落在一棵高大的树上，这棵树从月球表面生长出来。地球在远处悬挂，在黑暗的宇宙中如一颗充满活力的蓝绿色宝石。一艘光滑的宇宙飞船在附近盘旋，向场景投射柔和的光芒，整个数字艺术作品散发着梦幻般的品质。”
Two side-by-side images of a cat napping on a sofa on the moon comparing BF16 precision (left) with NVFP4 (right).

图1. 使用FLUX.2 [dev]以BF16精度（左）和NVFP4精度（右）创建的图像

从图1中我们可以清晰地看到，无论是猫咪柔软的毛发纹理，月球表面的细节，还是远处地球的光影效果，以及宇宙飞船的质感，在BF16和NVFP4两种精度下都得到了近乎完美的呈现。这充分说明了NVFP4量化技术在大幅提升计算效率的同时，能够最大限度地保留原始图像的丰富细节和艺术表现力，这对于追求极致视觉体验的艺术家和设计师而言，无疑是巨大的福音。它意味着更快的创作迭代速度，更低的资源消耗，却能获得同样甚至超越传统方式的视觉效果。

第二张图片的提示词是：“一幅油画，描绘了一对穿着正式晚礼服的夫妇回家途中，被一场瓢泼大雨淋湿，却没有带伞。” 在这个案例中，两种精度之间的差异更难以察觉。最明显的区别在于BF16图像中男士的微笑和NVFP4图像背景中出现的几把雨伞。除此之外，两幅图像中前景和背景的大部分精细细节都得到了保留。
Two side-by-side images of a couple walking down a rainy cobblestone street comparing BF16 precision (left) and NVFP4 (right).

图2. 使用FLUX.2 [dev]以BF16精度（左）和NVFP4量化（右）创建的图像

图2则展示了更具挑战性的场景，即雨中人物的情绪和环境细节。尽管在一些细微之处存在差异，比如男士笑容的微妙变化，但整体而言，NVFP4精度仍然成功捕捉了油画般的质感，以及雨水、灯光和人物衣着等复杂元素的精细表达。这无疑为AI在艺术创作领域的应用开辟了更广阔的空间，让AI辅助创作能够更加贴近人类艺术家的审美和创作习惯。这种在保持视觉质量前提下的性能提升，也让AI图像生成技术能够更好地服务于影视、游戏、广告等对视觉效果要求极高的行业。

`FLUX.2 [dev]`优化之道：探秘性能飞跃的“秘密武器”

FLUX.2 [dev]模型的强大功能，离不开其精巧的内部架构和英伟达团队精益求精的优化策略。该模型由三个核心组件构成：一个文本嵌入模型（具体为Mistral Small 3），负责将文字描述转化为机器可理解的数字表示；一个扩散变换器模型（diffusion transformer model），是生成图像的核心大脑；以及一个自编码器（autoencoder），用于将潜在空间中的表示转换为最终的图像像素。英伟达团队对diffusers的开源实现应用了一系列先进的优化技术，这些技术在一个名为TensorRT-LLM/feat/visual_gen的分支中进行了原型开发，它们共同构成了FLUX.2 [dev]性能飞跃的“秘密武器”。这些优化包括：

NVFP4量化技术
时间步嵌入感知缓存（TeaCache）
CUDA Graphs
Torch compile
多GPU推理支持

这些技术的巧妙结合，不仅仅是简单的叠加，更是一种系统性的集成创新，确保了模型在保持高质量输出的同时，能够以极高的效率运行，满足日益增长的计算需求。

`NVFP4`量化：在精度与速度之间寻得最佳平衡

在人工智能领域，模型精度和计算效率之间常常存在着取舍。NVFP4量化技术，正是英伟达为了在两者之间找到最佳平衡点而提出的一项创新性解决方案。它将微块（microblock）缩放的概念推向了新的高度，引入了双层微块缩放策略，旨在最大限度地减少精度损失。

这项技术拥有两个独特的机制：逐张量（per-tensor）缩放和逐块（per-block）缩放。逐张量缩放是一种以FP32精度存储的值，它负责调整整个张量的分布，可以进行静态或动态计算。这就像是为整个图像或数据块设定一个整体的亮度或对比度基准。而逐块缩放则更加精细，它通过将张量划分为16个元素的块，实时动态计算缩放因子。这就好比在调整整体亮度的同时，还能针对图像的局部区域进行更精细的明暗调整，从而确保即使在更低的精度下，也能保留图像丰富的细节和色彩层次。

为了提供最大的灵活性，开发者可以根据具体需求，选择将某些特定层保留在更高的精度，并应用动态量化。这在FLUX.2 [dev]模型的优化中得到了实践，通过精确控制哪些部分需要高精度，哪些部分可以接受较低精度，从而实现性能和质量的最佳平衡。例如，在代码中通过exclude_pattern正则表达式，可以指定哪些层不进行NVFP4量化，以保证关键部分的精度。

exclude_pattern = r"^(?!.*(embedder|norm_out|proj_out|to_add_out|to_added_qkv|stream)).*"

NVFP4计算的应用也非常简洁高效，通过visual_gen.layers中的apply_visual_gen_linear函数即可实现：

from visual_gen.layers import apply_visual_gen_linear
apply_visual_gen_linear(
    model,
    load_parameters=True,
    quantize_weights=True,
    exclude_pattern=exclude_pattern,
)

这种精细化的量化策略，不仅显著降低了模型的内存占用，减轻了数据传输的负担，更重要的是，它在几乎不影响图像生成质量的前提下，大幅提升了推理速度。对于需要处理大量图像生成任务的企业和开发者而言，NVFP4无疑是一项极具价值的技术。

`TeaCache`：智能缓存，加速扩散过程

图像扩散模型通常需要经历多个“时间步（timestep）”才能逐步细化图像。而TeaCache（Timestep Embedding Aware Caching）技术，则是一种巧妙地加速这一推理过程的方法。它的核心思想是：通过利用扩散过程中前一个时间步生成的潜在表示，有条件地跳过某些扩散步骤。这就像一位经验丰富的艺术家，在创作过程中，如果发现某一阶段的草图已经足够完善，就可以跳过一些重复的修饰步骤，直接进入下一个更重要的创作环节。

为了量化TeaCache带来的效果，团队进行了一系列测试：在一个包含20个提示词、50步推理过程的场景中，TeaCache平均跳过了16个步骤，这直接带来了约30%的推理延迟降低。这种效率的提升，对于实时交互和大规模部署至关重要。

为了找到TeaCache超参数的最佳配置，团队采用了网格搜索（grid search）的方法。这是一种系统化的参数调优策略，通过尝试不同参数组合，寻找在计算速度和生成质量之间达到最优平衡的配置。例如，以下代码片段展示了teacache配置中的关键参数：

dit_configs = {
    ...
    "teacache": {
        "enable_teacache": True,
        "use_ret_steps": True,
        "teacache_thresh": 0.05,
        "ret_steps": 10,
        "cutoff_steps": 50,
    },
    ...
}

其中，teacache_thresh（缓存阈值）和ret_steps（返回步数）等参数的精细调整，共同决定了TeaCache何时、如何跳过扩散步骤。缓存机制的缩放因子是通过经验数据确定的，并通过一个三阶多项式进行近似拟合。这个多项式是利用包含文生图和多参考图像生成示例的校准数据集拟合而成的。图3形象地展示了这种经验方法，它绘制了原始校准数据点以及由此产生的三阶多项式曲线（红线所示），该曲线建模了调制输入差与模型输出差之间的关系。
A log-log scatter plot illustrating the correlation between modulated input difference and model-predicted output difference. The graph compares the current FLUX.2 third-degree polynomial fit (red line) against the FLUX.1 baseline.

图3. 调制输入差与模型预测输出差之间的关联性

TeaCache技术的高明之处在于，它通过智能判断和动态调整，在不牺牲最终图像质量的前提下，显著缩短了生成时间。这对于需要快速原型设计、实时内容生成，甚至交互式AI艺术创作的场景来说，都具有革命性的意义。新媒网跨境了解到，这种优化不仅提升了用户体验，也为企业节省了大量的计算资源成本。

`CUDA Graphs`：流水线优化，提升执行效率

在深度学习推理过程中，尤其是在GPU上，任务通常由一系列独立的CUDA内核（kernel）启动组成。频繁地启动这些内核会带来一定的开销，影响整体性能。CUDA Graphs技术正是为了解决这一问题而生，它允许将一系列CUDA操作打包成一个整体的图结构。一旦这个图被捕获，后续的执行就可以作为一个单一的实体被启动，从而消除了重复的内核启动开销，显著提升了执行效率。

英伟达TensorRT-LLM visual_gen为CUDA Graphs的捕获提供了现成的封装器，使得集成变得异常简单。开发者只需导入封装器并替换原有的forward函数即可：

from visual_gen.utils.cudagraph import cudagraph_wrapper
model.forward = cudagraph_wrapper(model.forward)

通过这种方式，模型的推理流程被“固化”为一张高效的执行图，如同工厂流水线经过精心优化后，每一个环节都紧密衔接、协同工作，最大程度地减少了停顿和等待时间。这对于追求极致推理速度的生产环境，特别是那些需要高吞吐量和低延迟的应用场景，具有不可估量的价值。

`Torch compile`：默认开启的通用加速器

Torch compile是PyTorch框架提供的一项强大优化功能，它能够将PyTorch模型编译成更高效的底层代码，从而在大多数情况下实现性能提升。在英伟达团队进行的所有实验中，除了作为基准测试的原始FLUX.2 [dev]运行（默认未启用torch.compile）之外，其他所有优化后的运行都启用了torch.compile。

model = torch.compile(model)

尽管torch.compile带来的性能提升可能不像NVFP4或TeaCache那样具有颠覆性，但它作为一种几乎无损的加速技术，已经被广大开发者所熟知和接受。它能够在不改变模型行为的前提下，进一步榨取硬件性能，为整体的优化效果锦上添花。对于追求全面性能优化的项目而言，启用torch.compile几乎是默认且必要的选择。

多GPU支持：集群协作，释放超级计算潜能

对于像FLUX.2 [dev]这样复杂且资源需求庞大的AI模型而言，单块GPU的计算能力往往不足以满足大规模部署的需求。因此，利用多GPU协同工作，将模型的计算负载分摊到多块GPU上并行处理，成为了提升性能的关键途径。TensorRT-LLM visual_gen为多GPU推理提供了全面的支持，其启用过程主要分为以下四个步骤：

修改model.forward函数，插入处理GPU间通信的代码。
用ditAttnProcessor替换模型中的注意力实现。
在配置中选择并行算法并设置并行大小。
使用torchrun启动。

这些步骤共同确保了模型在多GPU环境下的高效运行和数据流畅传输。以下代码片段展示了如何在model.forward函数的开头插入拆分（split）代码，以将输入数据分散到多个GPU上：

from visual_gen.utils import (
    dit_sp_gather,
    dit_sp_split,
)
# ... hidden_states = dit_sp_split(hidden_states, dim=1)
encoder_hidden_states = dit_sp_split(encoder_hidden_states, dim=1)
img_ids = dit_sp_split(img_ids, dim=1)
txt_ids = dit_sp_split(txt_ids, dim=1)

随后，在model.forward函数的末尾、返回结果之前，插入聚合（gather）代码，将来自不同GPU的处理结果汇总：

output = dit_sp_gather(output, dim=1)

接着，将原始的注意力（attention）实现替换为提供的注意力处理器ditAttnProcessor，它确保了多个GPU之间能够进行适当的通信：

from visual_gen.layers import ditAttnProcessor
# ... def attention(...): # ... x = ditAttnProcessor().visual_gen_attn(q, k, v, tensor_layout="HND") # ...

在配置中设置正确的并行大小也至关重要。例如，要在一个包含四块GPU的系统上使用Ulysses parallelism，可以这样设置：

dit_config = {
    ...
    "parallel": {
        "dit_ulysses_size": 4,
    }
    ...
}

最后，调用setup_configs API来激活这些配置：

visual_gen.setup_configs(**dit_configs)

当使用多GPU时，脚本必须通过torchrun启动。TensorRT-LLM visual_gen将利用torchrun提供的进程排名信息，正确处理所有通信和任务分配。这种序列并行（sequence parallelism）技术，使得多块GPU能够像一个统一的超级计算单元一样协同工作，极大地提升了处理大规模图像生成任务的能力。对于大型企业级应用和科研项目来说，多GPU支持是实现高性能、高吞吐量AI服务的基石。

性能分析：从“龟速”到“闪电”，AI推理的质变

上述所有推理优化技术，都已被整合到FLUX.2 [dev]的端到端示例中，包括低精度内核、缓存技术以及多GPU推理。这些技术的综合作用，使得FLUX.2 [dev]的推理性能实现了飞跃式的提升，为AI图像生成领域带来了前所未有的效率。

如图4所示，NVIDIA DGX B200架构在默认BF16精度下，就已比NVIDIA H200实现了1.7倍的代际性能飞跃。这意味着新一代的硬件平台本身就带来了显著的性能增益。在此基础上，通过分层应用推理优化技术，包括CUDA Graphs、torch.compile、NVFP4精度和TeaCache，单块B200的性能从基准线大幅提升，达到了惊人的6.3倍加速。

最终，在双B200配置下的多GPU推理，相比行业目前标准的H200，性能提升更是高达10.2倍。这表明，通过软硬件协同优化，AI模型的推理速度已经达到了一个全新的高度，将极大地加速AI应用的落地和普及。
Bar graph showing inference latency difference for FLUX-2.dev model between NVIDIA data center GPUs H200, B200.

图4. FLUX.2 [dev]在NVIDIA B200 GPU上的推理延迟对比

这里的“基准线”是指未经任何优化且未启用torch.compile的原始FLUX.2 [dev]模型。而“优化系列”则包含了启用torch.compile、CUDA Graphs、NVFP4和TeaCache后的性能表现。在这些基准测试中，扩散步数设定为50。

在单GPU环境中，团队发现NVFP4和TeaCache在速度提升和输出质量之间取得了良好的平衡，各自带来了大约2倍的加速效果。这两种技术相辅相成，共同提升了模型在单个高性能GPU上的运行效率。torch.compile作为一项通用加速技术，其带来的收益虽然有限，但几乎是无损的，是开发者们普遍熟悉的优化手段。而CUDA Graphs则主要在多GPU推理中发挥作用，它在NVIDIA B200上解锁了多GPU的增量扩展能力，使得多块GPU能够更高效地协同工作。

此外，整个优化流水线在FP8精度量化文本编码器后依然保持了稳健性，为大规模部署带来了额外的优势。在多GPU环境下，TensorRT-LLM visual_gen的序列并行技术实现了近乎线性的扩展，这意味着随着GPU数量的增加，性能几乎能按比例提升。这种效应在NVIDIA Blackwell B200和GB200，以及NVIDIA Blackwell Ultra B300和GB300等GPU上均有体现。这无疑为构建超大规模AI图像生成服务提供了坚实的技术基础。英伟达团队表示，针对NVIDIA Blackwell Ultra GPU的额外优化仍在进行中，未来我们或许会看到更加惊人的性能突破。
A horizontal bar chart titled 'FLUX.2-dev multi-GPU scaling' comparing the speedup of B200, GB200, B300, and GB300 GPUs. The chart shows performance across 1, 2, 4, and 8 GPU configurations, with the B300 demonstrating the highest scaling efficiency, reaching nearly an 8x speedup at the 8-GPU mark.

图5. FLUX.2 [dev]在Blackwell GPU上的多GPU推理扩展性

图5进一步展示了FLUX.2 [dev]在不同Blackwell系列GPU上的多GPU扩展性。无论是B200、GB200，还是更强大的B300和GB300，随着GPU数量从1块增加到8块，模型性能均呈现出显著的线性提升。其中，B300在8块GPU配置下展现出最高的扩展效率，达到了接近8倍的加速。这种几乎完美的线性扩展能力，对于需要处理海量数据、运行复杂模型的企业和研究机构而言，具有举足轻重的作用。它不仅意味着可以投入更多资源来获得成倍的性能增长，也为未来AI模型规模的持续膨胀提供了坚实的硬件基础。新媒网跨境认为，这种强大的扩展性将极大地推动AI在各行各业的深度应用，激发更多创新活力。

开启`FLUX.2`在英伟达Blackwell GPU上的创意之旅

FLUX.2模型无疑是图像生成领域的一项重大进展，它成功地将高质量的图像输出与用户友好的部署选项结合在一起，为全球的创作者、开发者和企业带来了前所未有的机遇。英伟达团队与BFL的精诚合作，在英伟达最强大的数据中心GPU上，实现了FLUX.2 [dev]模型的显著加速。通过将NVFP4量化和TeaCaching等创新技术应用于FLUX.2 [dev]模型，我们看到了推理速度上的巨大代际飞跃。

这些优化技术的综合运用，显著降低了推理延迟，使得FLUX.2 [dev]能够在英伟达数据中心GPU上实现高效部署。这不仅意味着用户能够以更快的速度获得更高质量的图像，也极大地降低了AI图像生成的门槛和成本，使得更多的个人和中小企业能够享受到前沿AI技术带来的便利。对于希望构建自己先进推理流水线的开发者，我们鼓励大家查看NVIDIA/TensorRT-LLM/visual_gen GitHub仓库中的端到端FLUX.2示例及配套代码，亲身体验这些最先进的优化技术。让我们共同拥抱AI，用科技的力量点亮创意，驱动未来！

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/nvidia-b200-10x-ai-image-speed-no-lag.html