CUDA显卡加速实操：AI训练提速13倍！

各位跨境实战精英们，大家好！

在当下这个数据爆炸的时代，我们的AI（人工智能）模型跑得越来越快，GPU（图形处理器）的算力也是日新月异。但很多同行都遇到一个扎心的问题：辛辛苦苦攒出来的强大显卡，却总是“吃不饱饭”，因为它在苦苦等待数据。从存储读写，到数据从主机传输到显卡（PCIe），再到CPU进行解码和缩放等预处理，这些环节往往跟不上GPU的速度，这就形成了大家常说的“GPU饥饿”现象。

要解决这个“数据到张量”的鸿沟，我们必须构建更智能的数据管道，让它能与当下高性能的硬件完美匹配。今天，新媒网就给大家介绍一个实战利器：基于NVIDIA CUDA加速的SMPTE VC-6（ST 2117-1）编码器。这个编码器天生就是为大规模并行计算而生，它的分层、多分辨率、选择性解码和获取等特性，简直是为GPU的并行架构量身定制。通过将VC-6固有的并行性直接映射到GPU架构上，我们就能打造一条从压缩数据到模型可用张量的超高效通路。

接下来的内容，我会手把手带大家看，从CPU、OpenCL方案到CUDA实现的性能飞跃，看看它是如何助力我们AI应用轻松“喂饱”显卡，跑得更快、更稳！

VC-6究竟是何方神圣？

SMPTE VC-6是一个国际通用的图像和视频编码标准，它的设计初衷就是为了与现代计算架构，尤其是GPU，进行直接且高效的交互。VC-6不像传统编码那样把图像当作一个扁平的像素块来处理，它生成的是一个高效的多分辨率层次结构。
Figure 1 shows an example; demonstrating powers-of-two downscaling between resolutions (8K, 4K, Full HD).
图1. VC-6分层重构示例

它的编码过程是这样的：

首先，源图像会被递归地向下采样，生成多个层级，我们称之为“阶层（echelons）”，每个阶层代表不同级别的质量（LoQ）。其中最小的阶层作为低分辨率的“根LoQ”，会直接进行编码。

接着，编码器会向上重构。对于每个更高的层级，它会将低分辨率版本向上采样，然后从原始图像中减去它，从而捕获两者之间的差异，也就是“残差”。最终的比特流就包含了根LoQ，后面跟着这些逐级叠加的残差层。
Figure 2 shows the pipeline for VC-6 encoder
图2. VC-6编码器管道

VC-6解码器可以反向操作，逐级解压每个LoQ。它从根LoQ开始，向上采样到下一个LoQ，并添加相应的残差，直到达到目标分辨率或LoQ。关键在于，无论是颜色平面、阶层还是特定的图像块，VC-6的每个组件都可以独立并行地访问和解码。

这种结构给开发者带来了巨大便利：

按需传输：只传输真正需要的字节，大幅减少I/O、带宽、内存使用和内存访问，最大化吞吐量。
按需解码：只解码所需的部分，在任何LoQ级别都可以，直接生成接近模型所需输入尺寸的张量，无需先完整解码再缩放。
区域访问：在每个LoQ中，可以访问特定的感兴趣区域（RoI），而不必处理整个帧，从而节省大量计算资源。

下表总结了VC-6的架构优势：

特性	SMPTE VC-6 (ST 2117)
核心架构	分层、S-树预测、并行。
选择性数据召回	原生支持。比特流结构允许只获取偏请求所需的字节。
选择性分辨率(LoQ)解码	原生支持。分层LoQ结构固有，无需完整解码+缩放即可生成接近目标尺寸的表面。
RoI解码	原生支持。可导航S-树结构固有，只提取模型阶段所需的块。
并行解码能力	大规模并行。平面/LoQ/平铺残差独立性支持细粒度GPU并行。
最大位深	每个组件最高31位。
多平面支持	原生支持，最多255个平面（例如，RGB、alpha、深度）。

表1. VC-6针对AI的能力

正如表格所强调的，VC-6对选择性分辨率、RoI解码，尤其是选择性数据召回的原生支持，使其非常适合对效率和目标数据访问有极致要求的AI管道。

局部数据召回，大幅降低I/O！

除了解码速度，VC-6选择性召回数据的能力还能显著降低I/O。传统编解码器通常需要读取整个文件，即使你只需要低分辨率输出。但有了VC-6，你只需要获取目标LoQ、RoI或平面（即色彩空间）所需的字节。对于CPU解码，这意味着从网络或存储到RAM的字节数减少。对于GPU解码，除了这一点，还能额外减少PCIe内存带宽和显存占用。

举个例子，我们对DIV2K数据集（其中一个维度为2040像素，另一个可变）的前100张图像进行了测试，结果发现：

LoQ1（中分辨率，1020像素）传输了文件总字节的约63%。
LoQ2（低分辨率，510像素）传输了约27%。

图3. 解码不同LoQ所需的平均文件大小，3 bpp示例

这意味着与全分辨率解码相比，I/O分别节省了约37%和72%，网络、存储、PCIe和内存流量也成比例减少。更棒的是，你后续可以只获取剩余的层（或者一个小型RoI的特定瓦片），而无需重新处理整个文件。对于数据加载器来说，这是一种直接提升吞吐量或增加批处理大小的方法，甚至无需改动模型代码。

VC-6与GPU的完美融合：天生的并行伙伴

VC-6的架构与GPU的单指令多线程（SIMT）执行模型高度契合。其设计刻意最小化了组件间的相互依赖，从而实现了大规模的并行处理。

组件独立性：图像数据被分割成瓦片、平面和阶层，这些都可以独立处理。VC-6在编码时就考虑到了独立瓦片解码所需的信息，这使得并行处理数十万个瓦片成为可能，同时对压缩效率的影响微乎其微。
简单局部操作：与那些使用基于块的DCT或小波变换的编解码器不同，VC-6的核心像素变换操作是基于小型、独立的2x2像素邻域，这大大简化了GPU内核的设计。
内存效率：其熵编码旨在实现固有的海量并行，查找表的内存占用非常低，小到足以放入共享内存甚至寄存器中，这使得整个过程非常适合SIMT执行。

虽然“分层”这个词可能让人联想到串行处理，但VC-6通过整合两个在很大程度上正交维度的层次结构，最大限度地减少了相互依赖，为并发处理提供了独特的结构。

这种架构上的并行性，最初是为了CPU和OpenCL版本中低延迟、随机访问的视频编辑工作流而设计，如今它完美契合了AI对高吞吐量的需求。AI训练管道正是为了最大化吞吐量而生，像PyTorch DataLoader这样的框架通过并行进程来隐藏延迟。与高级编辑系统类似，这些AI工作流需要快速、按需访问不同分辨率和区域的图像。将这些特性应用于加速AI工作负载，正是我们创建专门的CUDA实现的主要动力。

原生CUDA库能够实现有针对性的优化，最大化吞吐量，充分利用VC-6的架构优势，为整个AI生态系统赋能。

VC-6的Python库，注入CUDA加速的“中国芯”

V-Nova和NVIDIA的工程师们紧密合作，共同优化VC-6，使其能在CUDA平台上大放异彩。我们都深知，CUDA已经是AI生态系统中事实上的标准。将VC-6从OpenCL移植到CUDA，确保了它能与PyTorch等主流工具以及更广泛的AI管道无缝集成，省去了额外的CPU拷贝和同步开销。

将VC-6迁移到CUDA带来了多方面关键优势：

开销最小化：避免了AI工作负载与OpenCL实现之间昂贵的上下文切换开销。
互操作性增强：直接与CUDA张量生态系统集成。CUDA流（streams）使得内存交换无需CPU同步。
高级性能分析：能够利用NVIDIA Nsight Systems和NVIDIA Nsight Compute等强大的工具来识别和解决性能瓶颈。
利用GPU硬件指令集：通过CUDA，可以充分利用NVIDIA GPU上所有可用的硬件内在指令。

当前VC-6的CUDA路径仍处于测试（Alpha）阶段，但原生的批处理能力和更多优化已在规划中，这些都得益于CUDA，并受到AI新需求的驱动。即便在此阶段，相较于OpenCL和CPU实现，其性能提升已相当显著，为后续的持续开发和改进奠定了坚实基础。

安装与实操：跟着导师一步步来

VC-6的Python包以预编译的Python Wheel形式分发，通过pip即可轻松安装。安装完成后，你就可以创建VC-6编解码器对象，开始进行编码、解码和转码操作了。

下面是一个如何编码和解码VC-6比特流的简单示例（更完整的示例请访问我们的GitHub仓库）：

from vnova.vc6_cuda12 import codec as vc6codec  # 针对CUDA环境
# from vnova.vc6_opencl import codec as vc6codec # 如果用OpenCL
# from vnova.vc6_metal import codec as vc6codec # 如果用Metal

# 设置编码器和解码器实例
encoder = vc6codec.EncoderSync(1920, 1080, vc6codec.CodecBackendType.CPU, vc6codec.PictureFormat.RGB_8, vc6codec.ImageMemoryType.CPU)
encoder.set_generic_preset(vc6codec.EncoderGenericPreset.LOSSLESS) # 设置为无损编码
decoder = vc6codec.DecoderSync(1920, 1080, vc6codec.CodecBackendType.CPU, vc6codec.PictureFormat.RGB_8, vc6codec.ImageMemoryType.CPU)

# 读取原始图像并编码
encoded_image = encoder.read("example_1920x1080_rgb8.rgb")
# 将编码后的图像写入文件
decoder.write(encoded_image.memoryview, "recon_example_1920x1080_rgb8.rgb")

直接输出GPU内存

对于CUDA包（vc6_cuda12），解码器输出可以直接生成一个CUDA数组接口。要启用这个功能，你需要在创建解码器时，将输出内存类型指定为GPU_DEVICE。这样，输出图像就自带__cuda_array_interface__接口，可以轻松与CuPy、PyTorch和nvImageCodec等其他库配合使用。

from vnova.vc6_cuda12 import codec as vc6codec # 仅适用于CUDA环境
import cupy

# 设置GPU解码器实例，输出直接到CUDA设备内存
decoder = vc6codec.DecoderSync(1920, 1080, vc6codec.CodecBackendType.CPU, vc6codec.PictureFormat.RGB_8, vc6codec.ImageMemoryType.CUDA_DEVICE)

# 从文件解码
decoded_image = decoder.read("example_1920x1080_rgb8.vc6")

# 从解码后的图像创建cupy数组，下载到CPU并写入文件
cuarray = cupy.asarray(decoded_image)
# 注意：这里原文代码有误，已修正
with open("reconstruction_example_1920x1080_rgb8.rgb", "wb") as decoded_file: # 以二进制写入模式打开文件
    decoded_file.write(cuarray.get()) # .get()将cuarray数据传回CPU并获取原始数据

无论是同步（sync）还是异步（async）解码器，访问__cuda_array_interface__都会阻塞并隐式等待结果在图像中准备就绪。__cuda_array_interface__总是包含一维的无符号8位类型数据，与CPU版本相同。调整维度（或者在10位格式情况下调整类型）需要用户自行处理。

局部解码与I/O操作

要执行局部解码，解码器函数接受一个可选参数，用于描述感兴趣的区域。在下面的例子中，解码器将只读取和处理解码四分之一分辨率图像所需的数据。

# 读取并解码四分之一分辨率图像（阶层1）
# FrameRegion也可以用来描述一个目标矩形区域
decoded_image = decoder.read("example_1920x1080_rgb8.vc6", vc6codec.FrameRegion(echelon=1))

局部数据召回也可以通过其他在内存而非文件路径上操作的解码函数实现。为此，VC6库提供了一个实用函数，可以单独查看文件头，并报告目标LoQ所需的大小。具体用法在GitHub示例中有详细展示。

性能大比拼：CPU、OpenCL与CUDA谁是王者？

我们使用NVIDIA RTX PRO 6000 Blackwell Server-Edition服务器，在DIV2K数据集（800张图像）上对VC-6进行了评估，测量了CPU、OpenCL（GPU）和CUDA实现在不同LoQ下的单图像解码时间。对于批处理测试，我们采用了“伪批处理”方法，通过并行运行多个异步单图像解码器来模拟原生批处理，以最大化吞吐量。相同的测试工具可用于重现这些结果，如图4所示。
Figure 4 shows a benchmark of the VC-6 comparison of per-image decode time in milliseconds
图4. VC-6不同实现方式的解码性能对比

数据一目了然：转向CUDA带来了显著的性能提升。对于单图像解码，CUDA比CPU快了整整13倍（1.24毫秒 vs 15.95毫秒）。即使与现有的GPU实现相比，CUDA版本也比OpenCL快了1.2到1.6倍。未来，CUDA将能更多地利用专用硬件指令集，潜力无限。

在所有平台上，批处理都能提高效率，我们期待原生批处理解码器能带来更大的性能飞跃。

Nsight深度剖析与未来展望

Nsight Systems工具显示，解码工作在CPU（比特流解析、根节点处理）和GPU（瓦片残差解码、重构）之间进行了分工。当前为低延迟优化的单图像路径并没有充分利用GPU的潜力，而吞吐量模式才是CUDA真正大放异彩的地方。

我们通过分析发现了三个关键的性能瓶颈：

上采样链中的内核启动开销：在低LoQ时，小型内核的执行会频繁穿插着启动开销。CUDA Graphs的原型测试表明可以显著减少内核间的间隔。我们还在探索将早期LoQ的内核进行融合，因为它们的中间结果可能从未被完全消费。
内核效率：Nsight Compute标记了一些阶段中的分支发散、寄存器溢出和非合并I/O问题。优化这些可以提高占有率和吞吐量。
内核级并行：目前每个解码都会启动自己的内核链，这不如直接扩大启动网格维度效率高。每个图像都会启动一系列内核，由于GPU上并发内核的数量限制，这种方式的扩展性并不完美。

上采样链条

A chain of upsampling kernels (Figure 5) reconstructs the image at successively higher LoQs.
图5. 上采样内核链

上采样内核链（图5）逐级重构图像，达到更高的LoQ。在较低LoQ时，有效计算（蓝色部分）与开销（白色部分）的比例显著。CUDA Graphs或内核融合等技术可以减少这些内核之间的开销，从而加速计算。

Nsight追踪也显示，由于网格维度小，GPU利用率很低。特别是第一个上采样内核只启动了一个块，这只能利用一个流式多处理器（SM）。在拥有188个SM的RTX PRO 6000上，解码一张图片基本上只使用了GPU的1/188。理论上，这能让我们用GPU的其他187/188来并行解码额外的图像。但在实践中，这被称为“内核级并行”，并非利用NVIDIA GPU的最佳方式。

内核级并行

The Nsight Systems trace in Figure 6 shows three concurrent decoders launched as Python threads on CPU (bottom) and their corresponding GPU activity (top). Each decode (blue) runs on its own stream.
图6. 内核级并行

图6中的Nsight Systems追踪显示，三个并发解码器作为Python线程在CPU（底部）上启动，以及它们对应的GPU活动（顶部）。每个解码器（蓝色）都在自己的流上运行。尽管这使得GPU调度器能够同时启动这些内核，但在GPU上启动一个更大的单一网格效率更高。

内核级并行可能导致调度冲突、资源争用，甚至并发可执行内核的数量也存在一个硬性限制，这取决于计算能力。更重要的是，启动更大的网格可以显著减少三个并发线程带来的CPU开销。

总结：让你的AI“跑”得更快、更稳！

各位跨境同仁，AI管道需要的不仅仅是更快的模型；它需要能够匹配AI处理速度的数据供给。通过将VC-6的分层、选择性架构与CUDA强大的并行能力相结合，我们能够显著加速从存储到张量的通路。这种方法通过提供一个AI原生解决方案，在那些选择性LoQ/RoI解码和GPU驻留数据能够带来立竿见影优势的工作负载中，与现有库形成了完美的互补。

当前的CUDA实现，作为一个实用的构建模块，各位当下就可以用起来，让你们的数据管道更快、更高效。虽然目前的测试（Alpha）版本已经带来了实实在在的收益，但我们与NVIDIA工程师在原生批处理和内核优化方面的持续合作，承诺将释放出更大的吞吐量。

新媒网跨境认为，作为下一步，这个初始的CUDA实现将能够与流行的AI SDK和数据加载管道进行更紧密的集成。如果你正在构建高吞吐量、多模态的AI系统，那么现在正是你探索VC-6在CUDA上如何加速工作流程的绝佳时机。抓住机遇，才能在跨境浪潮中乘风破浪！