AI工厂重构!800VDC供电功率增157%,机架空间省26%

当前,数字经济蓬勃发展,人工智能技术的迭代升级正以前所未有的速度重塑着全球产业格局。在此背景下,数据中心作为算力基础设施的核心,其角色正在从传统的IT服务载体,跃升为驱动生成式AI发展的“AI工厂”。这种转变不仅带来了性能的飞跃,也对供电基础设施提出了前所未有的严峻挑战。电力系统,这一过去常被视为辅助性因素的环节,如今已成为决定AI工厂规模、选址乃至可行性的首要考量。面对这一关键拐点,行业不能再满足于渐进式改进,而是需要一场基础性的架构变革,以构建更高效、更具扩展性、更能适应现代AI算力需求的全新供电蓝图。
构建高效、可扩展的AI工厂,一个备受关注的解决方案是采用800伏直流(VDC)供电系统,并深度融合多时间尺度储能技术。这不仅关乎AI工厂的持续运行,更是在为未来计算奠定坚实基础。
AI工作负载的电力需求飙升
在过去数十年里,处理器技术的每次显著进步,通常伴随着约20%的功耗增长。然而,进入2020年代中期,这一可预测的曲线已被打破。驱动因素是行业对极致性能的持续追求,这得益于NVIDIA NVLink等高带宽互连技术,它们使得数千个图形处理器(GPU)能够作为一个单一的、整体的处理器协同工作。
为了实现所需的低延迟和高带宽,这些连接依赖于铜缆。但铜缆的有效传输距离有限,这导致了一个“性能-密度陷阱”:要构建更强大的AI系统,就必须在更小的物理空间内集成更多的GPU。这种架构上的必然性直接将性能与电力密度紧密关联起来。
以NVIDIA Hopper架构到NVIDIA Blackwell架构的演进为例,虽然单个GPU的功耗(TDP)增加了75%,但NVLink域扩展至72个GPU系统后,机架功率密度却增加了3.4倍。性能方面实现了惊人的50倍提升,但也使得机架功耗从数十千瓦一路攀升,甚至超过100千瓦,未来每机架兆瓦级功耗已不再遥远。在传统的低电压,如54伏直流下提供如此高的电力,无论在物理上还是经济上都变得不切实际。巨大的电流需求将导致高电阻损耗,并需要难以承受的铜缆用量。
同步工作负载带来的波动性挑战
除了单纯的密度问题,AI工作负载还带来了第二个同样艰巨的挑战:波动性。与运行数千个不相关任务的传统数据中心不同,AI工厂作为一个单一的、同步的系统运行。例如,在训练大型语言模型(LLM)时,数千个GPU会在几乎完美的同步下,执行密集计算周期,随后进入数据交换阶段。
这导致整个设施的功耗曲线呈现出巨大且快速的负载波动。行业研究已记录了这一波动性挑战,尤其是在AI训练数据中心的电力稳定方面。这些研究表明,同步的GPU工作负载可能引发电网规模的振荡。一个机架的功耗可以在毫秒内从约30%的“空闲”状态骤升至100%利用率,然后又迅速回落。这迫使工程师必须为峰值电流而非平均电流来设计和配置组件,从而推高了成本并增大了占地面积。当这些波动性摆动(代表着数以百兆瓦计的电力在几秒钟内迅速升降)在整个数据大厅聚合时,将对公用电网的稳定性构成重大威胁,使电网并网成为AI扩展的主要瓶颈。
新型电力输配架构
应对这场多层面危机,需要多管齐下的解决方案。业界提出的架构蓝图是一个双管齐下的策略:通过转向800伏直流供电系统,并深度集成储能技术,来解决规模和波动性带来的挑战。
800伏直流供电的优势
对抗大功率输配挑战最有效的方法之一就是提高电压。从传统的415伏或480伏交流三相系统过渡到800伏直流架构,能带来显著益处,主要体现在以下几个方面:
原生800伏直流端到端集成: 在设施层面生成800伏直流电,并将其直接输送至800伏直流计算机架,消除了冗余的电力转换环节,从而提高了整体供电效率。这种架构不仅支持高密度GPU集群,还能够释放单个GPU更高的性能潜力,并在AI工厂中集成更多GPU,从而提升整体计算吞吐量和潜在的营收能力。它还为未来每机架超过1兆瓦的扩展需求以及AI工厂供电生态系统的无缝互操作性提供了保障。
减少铜材用量与成本: 采用800伏直流电,相同的导线线规可以承载比415伏交流电高157%的功率。与交流电的四线制(三相火线+零线)相比,直流电采用更简单的三线制(正极、负极、地线),所需的导体数量更少,连接器也更小。这显著减少了铜材消耗,降低了材料和安装成本,并简化了电缆管理——这一点在机架电源入口功率趋向兆瓦级别时尤为关键。
提高效率: 原生直流架构消除了传统系统中多个低效的交直流转换环节(传统系统端到端效率可能低于90%)。这种简化的电力路径显著提高了效率,并减少了不必要的废热产生。
简化且更可靠的架构: 直流配电系统本质上更加简单,所需组件(如变压器、相平衡设备等)更少。组件数量的减少降低了潜在的故障点,从而提高了整个系统的可靠性。
这并非未知领域。电动汽车和公用事业规模的太阳能行业已经广泛采用800伏直流或更高电压技术,以提升效率和功率密度,从而形成了一个成熟的组件生态系统和最佳实践,这些经验可以很好地借鉴到数据中心领域。
利用多时间尺度储能降低波动
800伏直流技术解决了规模化供电的效率问题,但未能直接解决工作负载的波动性。为此,储能系统必须被视为电力架构中不可或缺的、主动的组成部分,而不仅仅是备用系统。其目标是创建一个“缓冲器”——一个低通滤波器——将GPU混乱的电力需求与电网的稳定性要求解耦。
由于电力波动发生在广泛的时间尺度上,需要一个多层次的策略,具体可分为:
短时储能(毫秒至秒级): 高功率电容器和超级电容器被放置在靠近计算机架的位置。它们能够迅速响应,吸收高频次的功率尖峰,并填补LLM工作负载空闲期间短暂的功率低谷。
长时储能(秒至分钟级): 大型、设施级的电池储能系统(BESS)被部署在与电网互联的位置。它们负责管理更慢、更大规模的电力变化,例如整个工作负载的启动和停止,并在切换到备用发电机期间提供持续供电能力。
800伏直流架构是实现这一策略的关键推动者。当前数据中心的储能系统通常与交流供电系统串联。而转向800伏直流后,将储能系统置于最合适的位置变得更加简便和高效。
下一代AI工厂中的800伏直流电力分配
图1. 从415伏交流供电(上)转向800伏直流供电(下)
展望未来,下一代AI工厂将从当前的交流配电模式逐步过渡到800伏直流配电模型。当前的架构涉及多个电力转换阶段。电网提供的中压交流电(例如35千伏交流电)首先被降压至低压(例如415伏交流电)。随后,这些电力经过交流不间断电源(UPS)的调节,并通过配电单元(PDU)和母线槽分配到各个计算机架。在每个机架内部,多个电源单元(PSU)将415伏交流电转换为54伏直流电,再进一步分配到各个计算托盘进行更深层次的直流-直流转换。
未来愿景则将所有交直流转换集中在设施层面,从而建立一个原生的直流数据中心。在这种方法中,中压交流电直接由大型、高容量的电力转换系统转换为800伏直流电。然后,这些800伏直流电被分配到整个数据大厅的计算机架。这种架构通过消除多层交流开关设备、变压器和PDU,简化了电力传输路径,最大限度地利用了“白空间”(white space)用于产生营收的计算设备,简化了整体系统,并为设施级储能系统的直接集成提供了清洁、高压的直流骨干。向完全实现的800伏直流架构过渡将分阶段进行,为行业提供适应时间,也让相关组件生态系统有足够时间走向成熟。
图2. NVIDIA Kyber机架供电设计
NVIDIA MGX架构将随着即将推出的NVIDIA Kyber机架架构而演进,后者正是为使用这种新型800伏直流架构而设计(参见图2)。电力以高电压直接分配到每个计算节点,在那里,一个后期、高比例的64:1 LLC转换器能高效地将其降压至12伏直流电,紧邻GPU。这种单级转换比传统的多级方法更高效,且占用的面积减少了26%,从而为处理器附近释放了宝贵的空间。
未来的发展路径:呼吁合作共赢
这场深刻的技术转型不可能孤立完成。它需要行业内紧急、专注且广泛的协作。开放计算项目(OCP)等组织为制定开放标准提供了重要的平台,以确保互操作性,加速创新,并降低整个生态系统的成本。行业必须在800伏直流环境下的通用电压范围、连接器接口和安全实践方面达成共识。
为了加速这一新架构的普及,NVIDIA正与数据中心电力生态系统中的关键行业伙伴开展深度合作,包括众多提供硅芯片、电力系统组件以及数据中心电力系统解决方案的国际知名企业。这种广泛的合作有助于集合各方智慧和资源,共同攻克技术难题,推动标准的制定与落地,为全球AI基础设施的健康发展奠定坚实基础。
对于国内的跨境电商、游戏、支付、贸易以及广告等相关从业人员而言,密切关注AI工厂电力基础设施的这些前沿动态至关重要。高效、稳定、可扩展的算力基础设施是支撑未来数字业务发展、提升全球竞争力的基石。理解并掌握这些技术趋势,有助于我们在规划海外市场业务、选择云服务或自建数据中心时,做出更明智的决策,从而更好地服务于国内企业的出海战略。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/ai-factory-rebuilt-800vdc-power-157-rack-26-off.html








粤公网安备 44011302004783号 













评论(0)