英伟达GEMM核心调优实操：150分钟搞定性能峰值！

兄弟们，搞跨境的朋友们都知道，时间就是金钱，效率就是生命。尤其是在我们处理大数据、跑AI模型的时候，GPU的性能优化那可是兵家必争之地。今天，新媒网跨境就给大家带来一个重磅消息，一个能彻底改变你GPU核心优化效率的利器——NVIDIA的nvMatmulHeuristics模块，配合CUTLASS 4.2，让你的计算效率直接起飞！

我们都知道，要在NVIDIA GPU上找到一个最适合特定任务和硬件的通用矩阵乘法（GEMM）核心，那简直就像大海捞针。一个GEMM核心的性能，受限于无数的编译时和运行时参数：比如CTA、warp、指令级的瓦片大小，还有核心调度、栅格化策略、集群维度、split-k因子等等。光听这些词就头大，对不对？

传统的优化方式是啥？生成成千上万种可能的配置，挨个编译，然后进行耗时耗力的穷举式自动调优，只为找到那个最快的。这套流程走下来，可能需要好几个小时，甚至十几个小时。这不光拖慢了咱们开发进度，对于那些追求即时编译的库，比如PyTorch的Torch Inductor或者OpenAI的Triton，这更是一个巨大的瓶颈。很多时候，大家为了省事，只能退而求其次，选择一个次优的核心。这可是实实在在的性能损失啊！

为了解决这个“老大难”问题，NVIDIA重磅推出了一个GPU核心元参数优化模块——nvMatmulHeuristics。它就像一个智慧的“大脑”，能够根据你具体的操作参数和目标硬件能力，迅速分析并预测出一小批最有潜力的核心配置，帮你达到性能巅峰。接下来，咱们就以CUTLASS 4.2为例，手把手教大家怎么用。

智能先行：nvMatmulHeuristics如何赋能CUTLASS调优

nvMatmulHeuristics集成到CUTLASS生态系统后，整个核心生成和调优过程简直是“脱胎换骨”。以前是盲目摸索，现在是精准打击。针对任何一个GEMM任务，你都可以利用nvMatmulHeuristics来预测出一组精炼的、高性能的核心配置，大大节省你的宝贵时间。

这套高效的工作流程，可以概括为以下三步：

步骤一：启发式智能预测

nvMatmulHeuristics会接收你的GEMM问题定义（比如矩阵的形状、数据类型等等），以及你想要使用的后端（在这里就是CUTLASS）。它会自动检测目标硬件的属性，然后基于其内部模型，为你生成一份“优选清单”，里面包含了少数几个最有希望的核心配置。这些配置涵盖了最优的CTA形状、split-k因子以及其他关键元参数，让你一开始就赢在起跑线上。

步骤二：按需编译核心

有了这份“优选清单”，我们就可以把它交给CUTLASS库的核心生成器。此时，CUTLASS只会根据这份清单去编译这些精选的核心，而不是像以前那样编译成千上万个可能永远都用不上的变体。这样一来，编译时间就从几个小时骤降到几分钟，甚至是几十秒，大大提高了编译效率。

步骤三：高效自动调优

最后，CUTLASS的性能分析器会接收同样的这份清单，然后仅仅针对这些已经编译好的核心，进行运行时的参数自动调优。它会快速找出这些候选核心中表现最好的那一个。整个过程高效、精准，让你在最短的时间内锁定最佳性能。

这种全新的方法，能够极大地缩短你从零开始找到高性能核心的端到端时间，真正做到事半功倍。

实战演练：手把手教你配置与运行

想要在CUTLASS中使用这个新功能，其实并不复杂。

首先，你需要准备一个JSON格式的GEMM问题列表。以下是一个单精度FP16 GEMM的示例，其中tnn指的是A是行主序（转置），B是列主序（未转置），C/D也是列主序。

[
 {
 "m" : 4096,
 "n" : 4096,
 "k" : 4096,
 "batch_count" : 1,
 "layout" : "tnn",
 "dtype_a" : "f16",
 "dtype_b" : "f16",
 "dtype_c" : "f16",
 "dtype_acc" : "f32",
 "dtype_d" : "f16"
 }
]

接下来，在你的目标GPU机器上，像往常一样构建CUTLASS。但在CMake配置时，记得加入两个关键参数：-DCUTLASS_LIBRARY_HEURISTICS_PROBLEMS_FILE=<你的问题列表文件路径> 和 -DCUTLASS_LIBRARY_HEURISTICS_CONFIGS_PER_PROBLEM=N。这里的N代表nvMatmulHeuristics为每个GEMM问题将输出的配置数量。

例如：

cmake ${SRC_DIR} \
 -DCUTLASS_NVCC_ARCHS=90a \
 -DCUTLASS_LIBRARY_HEURISTICS_PROBLEMS_FILE=<path_to_your_problem_list.json> \
 -DCUTLASS_LIBRARY_HEURISTICS_CONFIGS_PER_PROBLEM=8 \
 -DCUTLASS_LIBRARY_HEURISTICS_TESTLIST_FILE=my_testlist_file.csv -DCMAKE_BUILD_TYPE=Release
 ...
 ...
 make cutlass_profiler -j

这个CMake步骤会生成一个CSV测试列表文件，里面列出了所有需要运行的测试用例，以便对这些预测出的配置进行自动调优。你可以用它来自定义基准测试代码，也可以直接使用CUTLASS自带的cutlass_profiler工具，它能直接读取这个CSV文件并运行这些配置：

cutlass_profiler --operation=Gemm --testlist-file=my_testlist_file.csv --profiling-iterations=0 --profiling-duration=50 --verification-enabled=false --output=<path_to_outfile>

为了确保测试结果的稳定性和一致性，跑测试的时候建议锁定GPU的时钟频率。如果想深入了解这个功能，记得查阅CUTLASS的官方文档。

Python API接口：快速尝鲜

nvMatmulHeuristics目前已提供抢先体验版，并深度集成到CUTLASS库中。它的核心优势包括：

快速的分析式启发法，以及自动的GPU配置检测能力（比如绿色上下文、MIG、图形中的CUDA、时钟频率等）。
支持CUTLASS及其他GEMM后端。你甚至可以自定义后端支持范围，比如限制CTA瓦片形状、split-k因子等。
全面支持NVIDIA Ampere、Ada、Hopper以及初步支持Blackwell等架构的Tensor Core所有GEMM精度（FP4、FP8、FP16/FB16、TF32、INT8等）。
提供Python和C++两种API接口。

要开始体验，只需要简单地通过pip安装nvMatmulHeuristics：

pip install nvidia-matmul-heuristics

然后，你就可以像下面这样，查询预测出的前N个GEMM配置了。这是一个FP16输入/输出、FP32计算（HSH）的例子：

from nvMatmulHeuristics import *

# 加载接口
nvmmh = NvMatmulHeuristicsInterface(NvMatmulHeuristicsTarget.CUTLASS3, precision='HSH', flags=NvMatmulHeuristicsFlags.PERF_MODEL_BASED_AUTO_TUNING)

# 创建硬件描述符
# 如果设置为None，则使用系统默认GPU
hw = nvmmh.createHardwareDescriptor()
nvmmh.setHardwarePredefinedGpu(hw, NvMatmulHeuristicsNvidiaGpu.H200_SXM) # 指定使用NVIDIA H200 SXM GPU

# 选择布局
layout = NvMatmulHeuristicsMatmulLayout.NN_ROW_MAJOR

# 加载内部发现集，提高准确性
assert nvmmh.loadInternalDiscoverySet(layout, hw)

# 获取最佳配置，这里以4000x16x32768的矩阵为例，获取8个最佳配置
configs = nvmmh.get_with_mnk(4000, 16, 32768, layout, 8, hw)

# 打印结果
print(f"找到了 {len(configs)} 个配置:\n")
for i, config in enumerate(sorted(configs, key=lambda d: d['runtime']), 1):
 print(f"配置 {i}:")
 print(f" 核心: {config['kernel']}")
 print(f" 预估运行时长: {config['runtime'] * 1000:.6f} 毫秒")

输出结果会像这样：

找到了 8 个配置:

配置 1:
 核心: layout(NN_ROW) stages(6) cta(128 16 128) warp(64 8 128) instr(64 8 16) splitK(4) swizz(1) ctaOrder(0) cluster(2 1)
 预估运行时长: 0.083215 毫秒
...
配置 8:
 核心: layout(NN_ROW) stages(8) cta(64 16 64) warp(64 8 64) instr(64 8 16) splitK(1) swizz(1) ctaOrder(0) cluster(4 1)
 预估运行时长: 0.102996 毫秒

有了这8个配置，我们就可以编译出少量的CUTLASS核心，然后从中选出最适合当前问题的那个。这可比盲目尝试高效多了！

效果如何？数据最有说服力！

把构建和性能分析的精力集中在nvMatmulHeuristics推荐的少数几个候选核心上，你就能在极短的时间内获得接近最优的性能，这比传统的穷举搜索快太多了。

下面这张图展示了在NVIDIA H100 SXM GPU上，针对Llama 3 405B训练工作负载中的一组GEMM任务，其几何平均性能得分。这个分数是相对于穷举搜索找到的最佳核心（基线为1.0）的加速比，并与总的构建和性能分析时间进行对比。
Scatter plot showing the build time and achieved performance of nvMatmulHeuristics compared with an exhaustive baseline.

图1. nvMatmulHeuristics在NVIDIA H100 SXM上针对Llama 3 405B的性能表现

正如数据所示，传统的穷举搜索需要超过700分钟才能找到最优核心。而使用nvMatmulHeuristics，仅仅选择16个候选核心，就能在约150分钟内达到峰值性能的96%！如果我们适当增加候选核心的数量，性能可以进一步逼近穷举搜索的基线，同时仍然大幅缩短构建和调优时间。这对于PyTorch这类即时编译时间至关重要的环境来说，简直是雪中送炭。

另一份数据来自DeepSeek-R1 671B训练工作负载，在NVIDIA B200 GPU上的表现也同样亮眼。
Scatter plot showing build and achieved geomean speedup performance for nvMatmulHeuristics against a CUTLASS exhaustive baseline search. The experiment is conducted on a B200 with a fixed clock at 1530 MHz. The problem set used represents GEMMs from DeepSeek-R1 671B.

图2. nvMatmulHeuristics在NVIDIA B200上针对DeepSeek-R1 675B的性能表现

性能达到了穷举搜索的99%，而构建和自动调优时间却缩短了5倍以上！新媒网跨境认为，更值得一提的是，由于只需构建少量核心，我们可以在编译时将更多行为静态地融入核心中。这与CUTLASS预编译核心通常将更多行为移到运行时以减少编译核心数量的做法不同。对于这些GEMM，这种优化甚至让性能达到了基线的104%！这再次印证了智能启发式方法在效率和性能上的巨大潜力。