FastGen AI视频提速百倍。跨境效率飙升！

生成式人工智能的浪潮正在席卷全球，从图像创作到音频生成，再到3D资产构建与分子设计，它以前所未有的能力，在多个条件生成任务中展现出高质量、多样化的输出。然而，尽管这些模型取得了突破性进展，其固有的采样效率问题却成为了实际应用中的一个主要瓶颈。标准的扩散模型通常需要数十甚至数百次的迭代去噪步骤，这导致推理延迟高、计算成本巨大，极大地限制了它们在互动应用、边缘设备以及大规模生产系统中的部署。

新媒网跨境获悉，视频生成领域尤其面临严峻挑战。无论是NVIDIA Cosmos等开源模型，还是商业化的文本到视频（T2V）系统，都已展现出卓越的T2V能力。然而，由于时间维度的存在，视频扩散模型在计算需求上要高出图像模型数个数量级。生成单个视频可能需要数分钟乃至数小时，这使得实时视频生成、互动编辑以及用于智能体训练的世界建模变得异常困难。因此，如何在不牺牲质量和多样性的前提下加速扩散采样，已成为一个关键的开放性难题，而视频生成正是其中需求最迫切、影响最深远的应用之一。

正是基于这一背景，NVIDIA研究团队近期推出了一款名为NVIDIA FastGen的开源库。该库旨在统一目前最先进的扩散蒸馏技术，从而将多步骤扩散模型转化为单步骤或少数步骤生成器。FastGen不仅将轨迹蒸馏和分布蒸馏两种主流方法整合，更展示了可复现的基准测试结果，实现了10倍至100倍的采样速度提升，同时保持了生成质量。此外，FastGen还展现了其在处理高达140亿参数的大型视频模型方面的可扩展性，并将其应用扩展到交互式世界建模领域，其中因果蒸馏技术能够实现实时视频生成。

扩散模型加速的核心路径

近年来，围绕扩散蒸馏技术的研究日益增多，其核心目标是将漫长的去噪轨迹压缩成少数推理步骤。当前主流的加速方法大致可分为两大类：

第一类是基于轨迹的蒸馏（Trajectory-based distillation）。这类方法直接学习并复现教师模型（即原始多步扩散模型）的去噪轨迹。典型的代表包括OpenAI的iCT和sCM等渐进式蒸馏技术，以及麻省理工学院和卡内基梅隆大学合作开发的MeanFlow。它们通过回归教师模型的中间去噪步骤，使学生模型能够在更少的步骤内近似生成相似的结果。

第二类是基于分布的蒸馏（Distribution-based distillation）。这类方法则侧重于通过对抗性或变分目标，使学生模型和教师模型生成的输出分布保持一致。例如，Stability.AI的LADD以及麻省理工学院和Adobe公司共同研发的DMD等技术均属于此范畴。它们不直接关注去噪过程的每一步，而是通过优化使得学生模型最终生成的图像或视频，在整体质量和多样性上与教师模型相匹配。

这些方法在图像生成领域已成功将扩散采样减少到一到两步。然而，每种方法都存在显著的权衡。例如，基于轨迹的方法常面临训练不稳定、收敛速度慢以及扩展性挑战；而基于分布的方法则通常内存密集、对初始化敏感且容易出现模式崩溃。更重要的是，在处理真实世界视频等复杂数据时，上述任何一种方法都难以单独实现高质量的单步生成。这促使行业迫切需要一个统一且可扩展的框架，以整合、比较和演进各类扩散蒸馏方法，从而实现更稳定的训练、更高质量的生成，并具备向大型模型和复杂数据扩展的能力。

FastGen的独特优势与核心能力

NVIDIA FastGen正是一款为解决上述挑战而设计的全新开源多功能库，它将最先进的扩散蒸馏方法整合在一个通用且即插即用的接口之下。

统一且灵活的接口： FastGen为加速不同任务下的扩散模型提供了统一的抽象层。用户只需提供其扩散模型（可选地附带训练数据），并选择合适的蒸馏方法。FastGen随后将自动处理训练和推理流程，以最少的工程开销将原始模型转换为单步或少数步生成器。这一设计极大地降低了开发门槛，让研究人员和开发者能够更专注于模型创新本身。
FastGen distillation pipeline.

可复现的基准测试与公平比较： 历史上，扩散蒸馏方法往往在独立的开源代码库中提出和评估，各自采用不同的训练方案，这使得公平比较变得异常困难。FastGen通过统一实现和超参数选择，在标准图像生成基准测试上复现了所有支持的蒸馏方法，从而提供了透明的基准测试环境，并为少数步扩散社区提供了一个共同的评估平台。

例如，在一项全面的蒸馏方法性能比较中，FastGen在CIFAR-10和ImageNet-64基准测试上展现了其卓越的可复现性。这项比较通过Fréchet Inception Distance（FID）分数衡量单步图像生成质量。数据显示，基于轨迹的蒸馏方法如ECT，在FastGen统一实现下的CIFAR-10 FID分数为2.92（原论文报告为3.60），ImageNet-64 FID分数为4.05（与原论文报告一致）。TCM方法在FastGen下CIFAR-10和ImageNet-64的FID分数分别为2.70（原论文2.46）和2.23（原论文2.20）。基于分布的蒸馏方法如DMD2，在FastGen下的CIFAR-10 FID分数为1.99（原论文2.13），ImageNet-64 FID分数为1.12（原论文1.28）。f-distill方法在FastGen下的CIFAR-10 FID分数为1.85（原论文1.92），ImageNet-64 FID分数为1.11（原论文1.16）。这些数据充分证明了FastGen在统一框架下，能够精确复现并甚至优化多种主流蒸馏方法的性能，为行业提供了可靠的比较依据。

超越视觉任务的应用潜力： 尽管FastGen主要在视觉任务上进行展示，但该库的通用性使其能够加速不同领域内的任何扩散模型。其中一个特别受关注的领域是人工智能在科学应用中的落地，在这些场景下，样本的质量往往与多样性同样重要。例如，研究团队已成功使用FastGen中的ECT方法，对NVIDIA PhysicsNeMo中的NVIDIA气象降尺度模型Corrector Diffusion（CorrDiff）进行蒸馏，实现了单步公里级大气降尺度。如图所示，蒸馏后的模型在技能和分布上与原始CorrDiff模型预测结果相匹配，但推理速度却提升了23倍，极大地提升了科研效率。

可扩展且高效的基础设施： FastGen提供了一套高度优化的训练基础设施，以支持扩散蒸馏技术向大型模型扩展。这些支持的技术包括：全分片数据并行v2（FSDP2）、自动混合精度（AMP）、上下文并行（CP）、弹性注意力（Flex attention）、高效KV缓存管理以及自适应有限差分JVP估算。凭借这些优化，FastGen能够高效地蒸馏大规模模型。例如，团队成功地将一个140亿参数的Wan2.1 T2V模型蒸馏成一个少数步生成器，利用改进的DMD2方法，在64块NVIDIA H100 GPU上仅用16小时便完成了收敛。图示对比了50步教师模型与2步蒸馏学生模型的视觉效果。尽管学生模型在采样速度上比教师模型快50倍，但其生成质量与教师模型几乎完全匹配。

FastGen助力交互式世界模型发展

交互式世界模型旨在实时模拟环境动态，并对用户操作或智能体干预做出连贯响应。这类模型对采样效率、长时序时间一致性以及动作条件可控性有着极高要求。视频扩散模型凭借其捕捉丰富视觉动态的能力，为世界模型奠定了坚实基础，但其多步采样过程和被动式生成特性阻碍了实时交互。为解决这一问题，近期研究探索了因果蒸馏技术，该技术能将双向视频扩散模型转化为少数步、分块自回归模型。这种自回归结构使得实时交互成为可能，并已成为交互式世界模型的重要基础。

FastGen实现了多种因果蒸馏方法的训练和推理方案，包括CausVid和Self-Forcing，其中默认配方主要基于分布蒸馏。由于双向教师模型与自回归学生模型之间存在性能下降和轨迹错位问题，基于轨迹的蒸馏尚未在因果蒸馏中得到广泛应用。FastGen通过两种方式解决了这些挑战：一是**“热启动”因果蒸馏**，即先使用基于轨迹的方法初始化学生模型，再应用基于分布的目标；二是通过扩散强制实现因果SFT（监督微调），FastGen提供了一种因果SFT方案，首先训练一个多步分块自回归模型，然后将其作为新的教师模型进行基于轨迹的蒸馏。这些组件共同构建了混合蒸馏流程，结合了基于轨迹方法的稳定性与基于分布目标的灵活性。

在应用层面，FastGen支持Wan2.1、Wan2.2和NVIDIA Cosmos-Predict2.5等一系列开源视频扩散模型，并为多种视频合成场景提供端到端加速：包括文本到视频（T2V）、图像到视频（I2V）以及视频到视频（V2V）。用户可以灵活定制因果蒸馏流程，例如将模型从20亿参数扩展到140亿参数，为I2V任务添加首帧条件，或整合深度引导驱动视频等结构先验信息用于V2V任务。因此，FastGen为推动交互式世界模型的发展提供了至关重要的基础设施，它所实现的高速、可控且时间一致的生成能力，正将扩散模型从被动式合成器转变为实时交互系统。