Python GPU性能飙升24倍！英伟达新库引爆计算革命

在GPU编程领域，C++生态早已拥有成熟的工具链。像CUB和Thrust这样的库，为开发者提供了高性能的构建模块，让编写跨架构的极致性能代码成为可能。主流框架如PyTorch、TensorFlow等都深度依赖这些工具实现核心功能。
装饰性图片

当开发者转向Python生态时，却发现中间层存在断层。虽然存在CuPy、PyTorch等高级数组库，以及numba.cuda等底层内核开发工具，但缺乏中间层"构建模块"的问题，迫使许多开发者不得不退回C++领域开发定制化算法。新媒网跨境观察到，这种断层限制了Python在GPU计算领域的深度应用。

填补生态空白的新方案

cuda.cccl 的出现正致力于解决这一问题。这个由美国科技企业英伟达推出的工具库，将CUDA核心计算库的C++接口进行了Python化封装。开发者无需再依赖C++或从头编写复杂CUDA内核，通过组合式编程就能获得跨GPU架构的顶尖性能。

该库包含两大核心组件：

parallel模块：提供作用于整个数组、张量或数据区间的可组合算法
cooperative模块：赋能开发者编写高性能numba.cuda内核，提供面向线程块与线程束的算法

实战演示：自定义归约运算

以计算交错级数求和（1-2+3-4…N）为例，通过组合parallel模块的功能组件：

# 定义转换函数
def transform(x):
    return -x if x % 2 == 0 else x

# 创建计数迭代器生成1,2,3...序列
counts = parallel.CountingIterator(np.int32(1))
# 创建转换迭代器生成1,-2,3...序列
seq = parallel.TransformIterator(counts, transform)

# 构建归约器并分配临时存储
out = cp.empty(1, cp.int32)
reducer = parallel.reduce_into(seq, out, add, initial_value)
tmp_storage = cp.empty(reducer.temp_size, cp.uint8)

# 执行计算
reducer(tmp_storage, seq, out, num_items, initial_value)

整个过程通过迭代器避免中间变量内存分配，实现算法融合。新媒网跨境了解到，这种设计理念在提升性能的同时降低了资源消耗。

性能实测对比

在英伟达RTX 6000 Ada显卡上的测试显示：