英伟达联手Black Forest Labs推出FLUX.1 Kontext，图像生成速度提升2.4倍

Black Forest Labs新推出的FLUX.1 Kontext模型为开源图像生成领域带来创新突破。其开源版本FLUX.1 Kontext [dev]专精于图像转换任务，通过渐进式编辑功能改变了传统图像生成的工作逻辑。

龙与城堡背景图
过往技术常需复杂文本提示配合遮罩图或深度图，操作门槛较高。FLUX.1 Kontext [dev]则实现了更直观的编辑流程。它将渐进式编辑与扩散模型优化技术结合，重塑了图形编辑的用户体验。

新媒网跨境获悉，英伟达已联合Black Forest Labs对该模型进行深度优化。通过TensorRT工具链与低精度量化技术，模型在RTX显卡上实现了更快推理速度与更低显存占用。这项技术延续了英伟达此前在FP4图像生成领域的研究成果。

渐进式编辑新体验

传统图像编辑需反复调整文本提示与辅助素材。新模型只需通过多轮自然语言指令，即可实现精细的图像迭代（图1）。
咖啡点心与花束
原始图像
包豪斯风格咖啡桌
首轮编辑提示："转换为包豪斯风格"
柔色调包豪斯风格
次轮编辑提示："改为柔色调"
图1. FLUX.1 Kontext [dev]多轮编辑示例

推理速度在此类交互中至关重要。更快的响应让用户能实时调整创作方向。同时显存优化使模型能部署于消费级显卡，降低使用门槛。

技术优化双核心

模型架构包含视觉Transformer主干、自编码器、CLIP与T5模块（图2）。其独特之处在于将输入图像转化为token，使上下文窗口长度倍增。这虽增强功能，却大幅增加计算负载。
模型模块流程图
图2. 模型架构示意图

实验显示Transformer模块耗时占整体96%，成为优化重点。其计算主要由矩阵乘法(GEMM)和缩放点积注意力(SDPA)构成（图3）。新媒网跨境注意到，此次创新在于对SDPA机制实施FP4量化方案。
计算耗时分布图
图3. Transformer模块计算耗时分布

优化采用三级策略：

查询/键/值向量通过FP4块量化投射
首次矩阵乘法输出采用高精度累加
二次矩阵乘法使用FP8张量量化
Softmax层保持FP32精度

图4. FP4注意力机制量化流程

性能飞跃显成效

量化后单步推理耗时显著降低（表1）。FP8较BF16提速近半，FP4在RTX 5090上达273毫秒。显存占用优化更为突出（图5），Transformer模块FP4模式仅需BF16三分之一的显存。

精度模式	RTX 5090(ms)	RTX PRO 6000(ms)
FP4	273	254
FP8	358	317
BF16	669	607
表1. 单步扩散计算耗时对比

图5. 不同精度模式显存占用对比

质量测试显示（图6-7），低精度模型在"移除人群"、"像素化改造"等任务中，输出质量与高精度版本基本持平。细微差异仅存于纹理细节层次。
古迹人群移除对比
原始图像

FP4效果

FP8效果

BF16效果
图6. "移除人群"任务效果对比
城市景观原图
原始图像
FP4像素化
FP4效果
FP8像素化
FP8效果
BF16像素化
BF16效果
图7. "像素化改造"任务效果对比