英伟达联手Black Forest Labs推出FLUX.1 Kontext,图像生成速度提升2.4倍

Black Forest Labs新推出的FLUX.1 Kontext模型为开源图像生成领域带来创新突破。其开源版本FLUX.1 Kontext [dev]专精于图像转换任务,通过渐进式编辑功能改变了传统图像生成的工作逻辑。

过往技术常需复杂文本提示配合遮罩图或深度图,操作门槛较高。FLUX.1 Kontext [dev]则实现了更直观的编辑流程。它将渐进式编辑与扩散模型优化技术结合,重塑了图形编辑的用户体验。
新媒网跨境获悉,英伟达已联合Black Forest Labs对该模型进行深度优化。通过TensorRT工具链与低精度量化技术,模型在RTX显卡上实现了更快推理速度与更低显存占用。这项技术延续了英伟达此前在FP4图像生成领域的研究成果。
渐进式编辑新体验
传统图像编辑需反复调整文本提示与辅助素材。新模型只需通过多轮自然语言指令,即可实现精细的图像迭代(图1)。
原始图像
首轮编辑提示:"转换为包豪斯风格"
次轮编辑提示:"改为柔色调"
图1. FLUX.1 Kontext [dev]多轮编辑示例
推理速度在此类交互中至关重要。更快的响应让用户能实时调整创作方向。同时显存优化使模型能部署于消费级显卡,降低使用门槛。
技术优化双核心
模型架构包含视觉Transformer主干、自编码器、CLIP与T5模块(图2)。其独特之处在于将输入图像转化为token,使上下文窗口长度倍增。这虽增强功能,却大幅增加计算负载。
图2. 模型架构示意图
实验显示Transformer模块耗时占整体96%,成为优化重点。其计算主要由矩阵乘法(GEMM)和缩放点积注意力(SDPA)构成(图3)。新媒网跨境注意到,此次创新在于对SDPA机制实施FP4量化方案。
图3. Transformer模块计算耗时分布
优化采用三级策略:
- 查询/键/值向量通过FP4块量化投射
- 首次矩阵乘法输出采用高精度累加
- 二次矩阵乘法使用FP8张量量化
- Softmax层保持FP32精度

图4. FP4注意力机制量化流程
性能飞跃显成效
量化后单步推理耗时显著降低(表1)。FP8较BF16提速近半,FP4在RTX 5090上达273毫秒。显存占用优化更为突出(图5),Transformer模块FP4模式仅需BF16三分之一的显存。
| 精度模式 | RTX 5090(ms) | RTX PRO 6000(ms) |
|---|---|---|
| FP4 | 273 | 254 |
| FP8 | 358 | 317 |
| BF16 | 669 | 607 |
| 表1. 单步扩散计算耗时对比 | ||
![]() |
||
| 图5. 不同精度模式显存占用对比 |
质量测试显示(图6-7),低精度模型在"移除人群"、"像素化改造"等任务中,输出质量与高精度版本基本持平。细微差异仅存于纹理细节层次。
原始图像
FP4效果
FP8效果
BF16效果
图6. "移除人群"任务效果对比
原始图像
FP4效果
FP8效果
BF16效果
图7. "像素化改造"任务效果对比
新媒网跨境认为,该技术突破将推动创意工具普及化。渐进式编辑结合实时响应,使专业级图像创作走向大众。硬件与算法的协同创新,正将云端级AI能力注入本地工作站。
模型开发者可借助TensorRT工具链加速产品落地。研究者则可基于注意力机制量化方案,继续深挖低精度计算潜力。这为更高效的生成式AI应用开辟了新路径。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。


粤公网安备 44011302004783号 












