AI炼丹耗电太猛!英伟达黑科技:电网峰值需求狂降30%!

2025-07-29前沿技术

Image

随着人工智能技术的飞速发展,数据中心在电力消耗方面面临着前所未有的挑战。传统电网设计主要服务于相对稳定的负载,例如照明、家用电器以及恒定功率运行的工业设备。然而,现代数据中心,尤其是那些运行人工智能工作负载的数据中心,正在改变这一格局。

数据中心消耗着电厂和变压器的大量电力。过去,数据中心内各种活动的差异能够在一定程度上平衡电力消耗。但是,大规模人工智能模型的训练会导致电力需求的突然波动,这对电网运营商提出了独特的挑战。

首先,如果电力需求突然增加,由于发电资源在爬坡速率上存在物理限制,可能需要1分钟到90分钟才能做出响应。其次,重复性的功率瞬变可能会引起共振并对设备造成压力。最后,如果数据中心突然降低其电力消耗,能源生产系统会发现自身有多余的能量而无处释放。这些突发变化可能会以电压尖峰或骤降的形式影响到电网的其他用户。

为了应对这些挑战,英伟达(NVIDIA)在GB300 NVL72中引入了一种新型电源单元(PSU),该电源单元具有储能功能。它可以平滑人工智能工作负载带来的功率峰值,并将峰值电网需求降低高达30%。此外,这项技术也将应用于GB200 NVL72系统。

同步工作负载的影响

在人工智能训练中,成千上万个GPU同步运行,并对不同的数据执行相同的计算。这种同步会导致电网层面的功率波动。与传统数据中心工作负载中不相关的任务可以“平滑”负载不同,人工智能工作负载会导致空闲状态和高功率状态之间的突然转换,如图1所示。
图片说明

图1:数千个GPU处理AI工作负载时同时消耗功率,并在较高和较低功率状态之间同步切换。工作负载完成后,GPU也会同时空闲。

将单个GPU的功率消耗可视化为热图上的行,可以清楚地说明为什么人工智能数据中心对电力输送网络提出了独特的功率挑战。传统数据中心的工作负载在计算基础设施上异步运行。而人工智能训练工作负载的热图突出了GPU是如何同步运行的,从而导致GPU集群消耗的总功率反映并放大了单个节点的功率模式。
图片说明

图2:GPU功率消耗热图

GB300 NVL72中的功率平滑技术

为了应对上述挑战,英伟达在GB300平台中引入了一种全面的功率平滑解决方案。它由跨越不同运行阶段的多种机制组成。下图展示了功率上限、储能和GPU消耗机制,这些机制共同作用以平滑机架的功率需求。
图片说明

图3:功率平滑解决方案

从左到右依次分析图中的每个机制。灰色线条代表人工智能训练GPU的功率消耗示例。绿色线条代表理想的功率曲线——平滑的上升、平稳的状态和逐渐下降。

借助新的功率上限功能,在工作负载开始时,GPU的功率消耗受到功率控制器的限制。新的最大功率水平被发送到GPU并逐渐增加,以适应电网可以承受的爬坡速率。更为复杂的策略被用于功率下降阶段;如果工作负载突然结束,GPU消耗系统会通过在特殊的功率消耗模式下运行GPU来继续消耗功率。这确保了平滑的过渡,而不是急剧下降(如图3和图5所示)。

对于稳态运行期间快速、短期的功率波动,储能元件(特别是电解电容器)已被集成到GB300 NVL72电源仓中。储能在GPU功率需求低时充电,在GPU功率需求高时放电(如图4所示)。
图片说明

图4:储能行为

下降阶段的解决方案是功率消耗硬件和一个软件算法,当运行平均功率下降时,该算法会检测到GPU功率已降至空闲水平。实现功率平滑算法的软件驱动程序会启动硬件功率消耗器。功率消耗器在等待工作负载恢复时保持使用恒定功率;如果工作负载没有恢复,则功率消耗器会平稳地降低功率消耗。如果GPU工作负载确实恢复,则功率消耗器会立即脱离。当工作负载结束时,功率消耗器以与电网容量一致的速率逐渐降低功耗,然后脱离。

有一些可配置的参数可以微调行为。下表显示了向用户公开的关键参数,而上图提供了表中第一列中列出的关键参数的可视化指南。这些参数可以使用NVIDIA SMI工具或Redfish协议进行设置。
图片说明

图5:该图反映了下表中关键配置参数如何影响功率需求。
图片说明

表1:影响功率需求的关键配置参数,如上图5所示。

测量的效益和结果

先前一代(GB200)和新型(GB300)带有储能功能的电源单元的实证结果表明,性能得到了显著改善。为了证明这一点,我们在GB200机架中安装了一个电源仓,如图6所示:
图片说明

图6:用于测量电源仓的测量设置

使用旧电源时,从电网汲取的交流电类似于机架功率消耗的波动。使用新型储能增强型电源仓,这些输入功率变化在很大程度上得到消除。值得注意的是,在训练Megatron LLM时,电网的峰值功率需求降低了30%,并且快速波动得到了大幅抑制,如图7所示。
图片说明

图7:相同的机架,相同的工作负载,分别展示了使用和不使用储能的NVIDIA协同设计的PSU性能(右侧和左侧)。

观察GB300电源的内部,我们发现大约一半的体积被用于储能的电容器占据。英伟达与电源供应商立隆电子(LITEON Technology)合作优化了电源电子元件的尺寸,并用65焦耳/GPU的储能填充了剩余空间。再加上新的充电管理控制器,我们提供了一种机架级快速瞬态功率平滑解决方案。
图片说明

图8:电源供应商立隆电子(LITEON Technology)提供的照片,展示了GB300电源单元的内部,其中储能区域以绿色突出显示。

系统设计的影响

新媒网跨境了解到,集成储能不仅可以平滑瞬变,还可以降低更广泛的数据中心的峰值需求。以前,设施需要根据最大瞬时功率消耗进行配置。现在,借助有效的储能,配置可以更接近目标平均消耗,从而实现更多。新媒网跨境认为,这将极大提升数据中心的运营效率。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/7746.html

评论(0)

暂无评论,快来抢沙发~
NVIDIA推出GB300 NVL72平台,采用新型电源单元,通过储能技术平滑AI工作负载带来的功率峰值,降低高达30%的峰值电网需求。该技术应用于GB200 NVL72系统,解决数据中心因AI训练导致的电力需求波动问题,提高电网稳定性。
发布于 2025-07-29
查看人数 1183
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。