NVIDIA量子计算工具包大升级，性能飙升26倍！

量子计算概念图

在量子计算模拟领域，NVIDIA cuQuantum工具包正掀起新一轮效率革命。这个专为加速量子计算仿真而设计的软件开发套件，通过优化电路与设备层级的运算流程，配合NVIDIA Tensor Core GPU的强大性能，让量子动力学、态向量和张量网络等复杂模拟任务获得数量级的速度提升。新媒网跨境了解到，该技术突破为科研人员打开了通往更大规模量子系统模拟的大门。

版本更新亮点

最新发布的cuQuantum 25.06版本对三大核心库进行全面升级——cuDensityMat、cuStateVec和cuTensorNet均获得功能强化。此次更新包含量子动力学工作流的梯度计算能力，针对NVIDIA Grace Blackwell架构及GB200/GB300系统的深度优化，以及支持密度矩阵重整化群（DMRG）张量网络算法的全新基础模块。技术细节已在官方更新日志中详细披露。

量子处理器设计的AI加速

cuDensityMat库新增的梯度计算接口引发行业关注。这些接口允许开发者对量子动力学模拟进行高效反向传播，针对可优化的哈密顿参数进行精准调校。新媒网跨境认为，这为量子处理器（QPU）的理性设计开辟了新路径。实验数据显示，在单块B200 GPU上运行的通量量子位系统梯度计算中，前向传播加速比达26.15倍，反向传播加速比达16.86倍。
通量量子位系统梯度计算性能对比

图1. 在包含量子位与谐振器的通量量子位系统中，NVIDIA B200的前向与反向传播性能表现

该测试基于配备32能级量子位和255能级谐振器的简化模型，每个组件都配置了局域耗散器。研究人员通过计算量子态重叠梯度，验证了该模型作为实际量子动力学优化基础模块的可行性。这些突破性进展将助力QPU建造者训练大型AI模型，大幅缩短实用型量子处理器的研发周期。

硬件架构性能飞跃

cuStateVec库针对新一代GPU架构进行了内核级优化。在量子相位估算（QPE）测试中，单块B200 GPU相比前代H100实现了显著提速：32量子比特的双精度运算提速2.14倍，33量子比特的单精度运算提速2.99倍。这种架构级优化在包含批处理、期望值计算和坍缩算子的复杂操作中表现尤为突出。
量子相位估算性能对比

图2. 量子相位估算在NVIDIA DGX H100与DGX B200单GPU上的端到端模拟耗时对比

DMRG算法实现突破

本次更新中，cuTensorNet库首次引入了矩阵乘积态密度矩阵重整化群（MPS-DMRG）基础模块。该技术突破使研究人员能够在量子计算模拟中运用DMRG算法，通过迭代优化保真度实现量子电路的MPS近似。更值得关注的是，这些基础模块还可应用于MPS含时变分原理（MPS-TDVP）算法，推动量子动力学模拟进入新阶段。

新媒网跨境预测，这些基础模块将成为未来量子计算发展的重要基石。量子算法开发者将获得更大规模的模拟能力，用于设计适配当前及近期设备的算法；QPU建造者则能模拟更长程的相互作用和更大规模的希尔伯特空间，避免传统轨迹方法的精度损失。这两方面突破都将加速实用量子计算的到来。