全球AI数据中心散热市场破百亿,液冷技术年增速超15%!

2025-12-16AI工具

全球AI数据中心散热市场破百亿,液冷技术年增速超15%!

随着人工智能(AI)、超大规模云服务(hyperscale clouds)的蓬勃发展,以及对计算性能的持续追求,数据中心的散热设计与技术在2025年经历了显著变革。未来十年,AI及相关技术的快速演进预计将进一步改变数据中心的规模,并推动更先进散热技术的广泛应用。
Nvidia

回溯至十年前的2015年,数据中心液冷技术主要限于超级计算机和挖矿农场等专业应用领域,其全球普及率最高也仅为5%左右。当时,由于初期成本较低和基础设施相对简单,风冷技术占据主导地位。然而,到2020年,随着云服务巨头开始追求更高效率,液冷技术的应用开始增长,普及率达到约10%。但彼时,每机架平均5至10千瓦的功耗密度,风冷仍足以满足大多数需求。

然而,短短几年后,机架功耗密度急剧攀升,达到15千瓦、20千瓦、30千瓦,甚至在基于美国英伟达(Nvidia)H100芯片的机架中高达40千瓦。这种功耗密度的飙升促使液冷技术稳步发展,从专业化设置逐步拓展至企业和云数据中心。

根据市场研究机构Mordor Intelligence的数据,截至2024年,液冷技术已占据整个数据中心散热市场46%的份额,而风冷仍保有54%。虽然风冷在传统和中等规模设施中仍占多数,但随着单机架功耗的持续增长,液冷技术预计将在新建数据中心,尤其是在AI和超大规模云数据中心中占据主导地位。例如,美国英伟达公司的Blackwell Ultra机架功耗高达140千瓦,而这种功耗密度的增长趋势仍在继续。

随着散热系统日趋复杂,其成本也相应提高。Mordor Intelligence报告指出,2025年全球数据中心散热市场价值为108亿美元,预计到2031年将达到251.2亿美元,复合年增长率(CAGR)高达15.11%。这种强劲的增长主要得益于AI和超大规模设施中,从风冷系统向液冷系统的持续转型,尤其是在AI加速器热密度不断上升导致风冷不再适用的背景下。

风冷技术的发展与局限

传统上,数据中心主要采用风冷技术来维持运营,对于许多运营商而言,这一现状短期内不会改变。然而,随着热密度的不断增加,风冷技术的局限性也日益凸显。
Research Gate

数据中心风冷的工作原理是通过循环调节后的空气,吸收并带走服务器和网络设备产生的热量。通常,风冷系统通过持续向服务器推送冷空气,并将排出的热空气吸回进行再处理,使进气温度保持在21°C至24°C之间,这是保障设备安全运行的推荐范围。

大多数风冷设施采用热通道/冷通道布局,旨在防止冷热空气混合,并最终降低能耗。机架的布置方式是,服务器前端(冷空气入口)面向冷通道,而后端(热空气出口)面向热通道。一些数据中心通过物理屏障封闭热通道或冷通道,以彻底隔离气流,最大限度地减少能源浪费。

热空气上升并通过回风格栅进入回风室,之后被计算机房空调(CRAC)或计算机房空气处理机(CRAH)等冷却系统吸入。CRAC机组使用制冷剂直接冷却空气,类似于标准空调;而CRAH机组则通过盘管循环由外部冷水机组提供的冷水来冷却空气。冷却后的空气通过高架地板下送风静压箱或高架风道分配到冷通道。在吸收热通道的热量后,空气通过吊顶回风室返回冷却机组进行进一步冷却。

许多现代风冷设施也采用节能器或自然冷却系统来降低能耗。这些系统利用室外冷空气或低温环境来辅助甚至替代CRAC或CRAH冷却。在气候温和的地区,这可以显著减少压缩机运行,从而降低电力消耗。

尽管风冷仍然是数据中心常用的散热技术,但对于功耗达到20千瓦至30千瓦的高密度服务器机架,其效率会大打折扣,无法有效带走足够热量。因此,数据中心正越来越多地采用液冷或混合冷却系统。

混合冷却与液冷技术

数据中心的混合冷却和液冷系统旨在应对AI和高性能计算(HPC)服务器更高的热负荷,这些服务器的单个功耗很容易达到数千瓦。这些系统不再仅仅依赖冷空气,而是利用液体冷却剂(通常是水或介电液体)直接吸收并带走组件的热量,或在少数情况下,带走局部空气区域的热量。
Nvidia

在混合冷却设置中,风冷和液冷协同工作。冷空气仍在机房内循环以维持环境温度,但液冷回路负责处理发热量最高的组件,例如中央处理器(CPU)和图形处理器(GPU),甚至未来可能包括固态硬盘(SSD)。在这种情况下,热量被循环冷却剂捕获,并传输到冷却分配单元(CDU)。热能随后被转移到设施水循环和冷却塔,或通过蒸发冷却部分释放后排出到室外。

根据具体设置,CRAC或CRAH可能承担15%至20%的散热能力,而大部分热负荷由液冷系统处理。在许多情况下,混合冷却可以在不完全重新设计设施的情况下,应用于现有场所。

新媒网跨境获悉,包括美国超微半导体公司(AMD)和美国英伟达公司(Nvidia)在内的行业领军企业,均推荐为其当前的AI加速器采用直触芯片(Direct-to-Chip, D2C)液冷方案。这些加速器的功率密度高达每平方厘米数百瓦。预计到2028年,英伟达的Feynman GPU功耗将进一步提升至4.4千瓦。如此巨大的热量散发对整个散热系统及其每个组件都提出了极其严苛的要求。其中,D2C冷板将成为最受考验的组件之一,它必须能够从AI加速器中吸收并带走数千瓦的热量。

当前,英伟达的Blackwell Ultra芯片,包含两个计算小芯片(每个裸片尺寸接近曝光限制,约858平方毫米)和八个HBM3E高带宽内存堆栈(每个121平方毫米),总功耗高达1400瓦。如果Blackwell Ultra的总硅面积约为2850平方毫米,那么其散热功率密度约为49.1瓦/平方厘米。这种功率密度可以通过现有的单相液冷解决方案,在100瓦/平方厘米的热流密度下满足;然而,在重负载下性能可能会下降,因为GPU热点区域的散热密度可能远高于芯片其他部分,这可能导致降频。

随着下一代GPU功耗增至4.4千瓦甚至更高,其功率密度将进一步提高,从而需要更先进的冷板和散热系统。例如,今年酷冷至尊(CoolIT)展示了一款单相分流D2C冷板,其热流密度接近200瓦/平方厘米,能够冷却高达4000瓦的功耗。美国Accelsius公司表示,对于功耗更高的GPU,其两相D2C冷却技术可以实现300瓦/平方厘米的热流密度。
Accelsius

对于不熟悉两相直触芯片冷却系统的读者,它利用一种低沸点的介电流体,流经直接连接到CPU或GPU的密封冷板。流体在接触热源时沸腾,吸收能量,然后通过附近的换热器凝结回液体。这种液气相变比单相液冷系统能转移更多的热量,使其能够处理非常高的功率密度(高达约1000瓦/平方厘米)。该过程通常是被动的,所需泵浦功率很小,并且回收的热量可以通过设施的冷却能力排出。

美国Frore公司表示,其LiquidJet冷板——据称已为Feynman架构准备就绪——在40°C的入口温度下可以维持600瓦/平方厘米的热点密度,但该公司尚未披露其测试是采用单相还是双相D2C冷却系统。

采用D2C冷板的混合和液冷技术正越来越多地应用于AI和超大规模数据中心,因为它们(与风冷相比)降低了能耗,并实现了更高的机架密度。随着计算能力持续增长,这些散热方法变得至关重要,其中两相D2C冷板无疑将在未来几年成为关键组成部分。然而,对于某些系统,这些冷却方法未来可能不足以满足需求,促使行业寻求更复杂的冷却方案。

浸没式冷却技术

其中一种方案是浸没式冷却,它将整个服务器或电路板浸入不导电的介电液体中。这种液体能够比传统冷板更快、更有效地带走热量。
Gigabyte

浸没式冷却,特别是采用低沸点油类、在液体沸腾汽化并在槽体顶部凝结回液体的两相浸没系统,能够处理极高的热流密度。单相浸没式冷却系统在芯片表面的典型持续热流密度范围为250瓦/平方厘米,但通过优化冷板或增强表面处理,一些研究报告显示可达300瓦/平方厘米。

同时,两相浸没式冷却可达到约1500瓦/平方厘米,甚至更高。虽然先进的浸没式冷却有其自身的考量,包括成本和需要建设新设施,但行业正在开发嵌入式冷却解决方案,从芯片内部进行散热。

嵌入式冷却技术

“嵌入式冷却”一词通常指一系列广泛的冷却技术,它们被集成到芯片非常近的距离,有时甚至直接集成到芯片裸片本身。例如,它可能意味着在芯片基板内部(或直接在其上)构建的微流体通道,用于将热量从芯片或集成电路上的热点区域带走。这个术语涵盖了广泛的技术,但我们将侧重于在学术出版物中描述或已通过实验验证(例如由美国微软公司)的现实方法,尽管还有更奇特的激光冷却芯片方法。
Microsoft

通常,当我们谈及嵌入式冷却时,会想到直接构建在芯片基板或封装中的微通道或针状翅片阵列,以便冷却剂可以非常靠近产生热量的晶体管流动。这种方法大大缩短了硅片与冷却剂之间的热路径,因为这些微结构比传统冷板更有效地散热,液体直接在热点处吸收热能。此外,这种方法有望在密集的2D/3D系统级封装(SiPs)中实现均匀的温度,并防止热节流现象。

在性能方面,实验室环境下嵌入式特性可处理接近1000瓦/平方厘米的热流密度。虽然这在当前浸没式冷却的实验室能力面前可能听起来不算令人印象深刻,但这已是一个重大成就。更重要的是,这些微通道旨在带走热点区域的热量,从而使单个处理器和整个数据中心获得更可预测的性能,这是外部散热器或冷板无法实现的。

当前,多家公司正在开发嵌入式冷却解决方案,包括美国Adeia公司、美国惠普公司(HP)、美国英伟达公司(Nvidia)、美国微软公司以及中国台湾台积电(TSMC)。事实上,其中一些解决方案已经商业化。

美国Adeia公司

美国Adeia公司是Xperi的子公司,它并非芯片制造商,而是一家“纯研发公司”,拥有众多先进芯片封装和混合键合相关专利。该公司近期发布了其硅集成液冷系统(ICS),该系统本质上是一个硅冷板,直接键合在处理器上,因此冷却剂在键合到芯片的硅内部而非通过外部铜冷板流动。在1.5-2瓦/平方毫米(150-200瓦/平方厘米)的功率密度测试中,该系统显示总热阻降低高达70%,性能比标准金属冷板提高80%。

ICS设计用硅基流体几何结构,如交错或矩形柱阵列和三角形通道,取代了典型的微通道结构,从而提高了散热效率和流体效率。Adeia公司报告称,交错柱阵列使峰值温度降低了约4°C,而矩形柱阵列使压降降低了4倍。据该公司称,全长微通道变体比柱阵列的压降改善了9倍。虽然Adeia公司的ICS通过将冷却层直接集成到硅封装堆栈中,符合嵌入式冷却的形式,但仍需要辅助系统(如风冷或液冷)来带走ICS从芯片本身转移出来的热量。

美国惠普公司与美国英伟达公司

美国惠普公司和美国英伟达公司自2023年以来一直致力于为下一代高性能GPU开发硅基微流体冷却系统。其目标是创建一个紧凑型单相液冷器,直接连接到GPU表面,并可在未来更深入地嵌入到封装中。该项目已获得美国ARPA-E Coolerchips计划325万美元的联邦资金支持。
HP and Nvidia
HP and Nvidia
HP and Nvidia
HP and Nvidia
HP and Nvidia
HP and Nvidia

据两家公司介绍,新型硅微通道冷板(SiCP)利用惠普的第五代微机电系统(MEMS)微流体技术,通过精细的硅通道和硅通孔管理冷却剂流动。SiCP的目标是热阻约0.01 K/W,压降低于60 kPa,并能够在流速低于3升/分钟的情况下带走高达2千瓦的热量。惠普和英伟达旨在通过极薄的金属键合将SiCP与GPU键合,以实现最小的热阻。该技术旨在耗散超过1千瓦的功率,并将废热排放到40°C的环境空气中,泵浦功耗仅占服务器总功耗的约1.27%。

惠普和英伟达承认,他们的SiCP面临多项技术挑战,包括机械应力、热膨胀不匹配、冷却剂兼容性以及通道堵塞,这些问题都需要解决。同时,可靠性是主要风险,因为SiCP从未在冷却设备中实际应用。

惠普和英伟达正在设计其SiCP设备,作为计划于2026年至2028年部署的现有液冷服务器的即插即用升级产品,但两家公司尚未展示实际的冷却解决方案。

美国微软公司

美国微软公司与瑞士初创公司Corintis合作,构建了其微通道设计。该设计并非采用直线槽,而是遵循类似于叶脉或蝴蝶翅膀的有机图案,以更有效地分配冷却剂。通道必须保持极其细微才能有效散热,但又需足够浅,以避免削弱硅片并造成结构损坏。微软-Corintis设计面临的挑战是,这些微通道需要额外的加工步骤进行蚀刻,这增加了成本。
Microsoft

为了简化生产,微软获得了一项专利,即单独制造微流体冷却板,然后将其连接到一个或两个芯片上,这种方法在很大程度上类似于Frore公司,尽管规模不同。该公司已经确定了最佳冷却剂,完善了蚀刻精度,并成功将该工艺集成到其制造流程中。因此,该技术现在已准备好进行大规模部署和授权,尽管微软尚未签署任何合同。

中国台湾台积电(TSMC)

可以说,最有前景的嵌入式冷却平台是中国台湾台积电(TSMC)的直触硅液冷技术(也称为硅集成微冷却器,IMC-Si),该技术旨在将微流体通道直接嵌入到硅结构中。该技术是台积电3DFabric先进封装平台的一部分,由于该公司已经进行了演示,使其成为最接近实际产品实施的方案。

台积电自2020年左右就开始试验片上液冷技术,并在几年前展示了利用该技术冷却2.6千瓦系统级封装的能力。台积电的直触硅液冷系统采用椭圆形微柱和分区流体布局,利用其SoIC晶圆对晶圆键合技术直接蚀刻到硅片中。这种结构将冷却剂引导至距离活跃晶体管几微米的地方,从而以最小的压降将热点区域的热量均匀地分散到整个芯片。
TSMC 3nm Arizona

台积电使用去离子水作为冷却剂进行的测试表明,直触硅液冷技术可以冷却一个功耗为2千瓦(约3.2瓦/平方毫米)的晶圆级芯片,使用40°C的水,泵浦功耗低于10瓦。该技术甚至可以在局部热点达到14.6瓦/平方毫米(在总负载降低的情况下甚至超过20瓦/平方毫米)时,仍能保持在热限制内。

据台积电称,在数据中心中,它可以将整体冷却基础设施需求减少近一半。该技术还与浸没式热管理设置兼容,这为下一代AI和HPC处理器打开了大门,根据韩国科学技术院(KAIST)的设想,这些处理器可能消耗高达15360瓦的功率。直触硅液冷技术还可以为机架应用带来更好的冷却效果、更高的效率和更强的性能。

台积电表示,当该系统集成到CoWoS-R封装平台时,它能够处理超过2.6千瓦的连续热负荷,并实现了比依赖导热膏的传统液冷组件低约15%的热阻。此外,台积电声称,键合结构在160微米至190微米的翘曲下仍能保持无泄漏。事实上,该实验设备已通过美国NASA-STD-7012A氦气可靠性测试,泄漏率低于115立方厘米/年,远低于数据中心标准。然而,嵌入式冷却系统在发生泄漏时能否保持其效率尚不清楚。

台积电计划于2027年左右将直触硅液冷技术商业化部署(可能赶上英伟达2028年的Feynman架构),届时它将成为采用台积电CoWoS技术封装的多芯片小片、多晶圆级AI加速器的一部分。然而,该技术将如何发展仍有待观察。

行业现状洞察

在过去十年中,数据中心冷却技术已从简单的风冷系统转向液冷和混合冷却系统,这主要得益于AI服务器和超大规模云服务部署日益增长的功耗。风冷技术曾占据主导地位,目前仍服务于传统设施,但随着机架功率从40千瓦上升到140千瓦甚至更高,液冷系统——在2024年占据46%的市场份额——正成为新建AI和部分云数据中心的标准配置。

然而,向采用直触芯片(D2C)冷板的混合冷却转型,只是向更先进技术转变的开始,因为企业目前正考虑浸没式和嵌入式冷却方法。

下一代D2C冷板,例如来自美国Accelsius和酷冷至尊(CoolIT)的产品,预计将实现高达300瓦/平方厘米的热流密度。相比之下,美国Frore公司展示的冷板能够维持600瓦/平方厘米的热点密度。浸没式系统在两相形式下可达到约1500瓦/平方厘米。同时,嵌入式冷却通过将微通道或针状翅片阵列直接引入硅片,在晶体管层面散热,解决了热点问题。

从专利持有者美国Adeia公司到美国惠普公司、美国英伟达公司、美国微软公司以及中国台湾台积电,多家公司正在开发各种形式的嵌入式冷却技术。然而,新媒网跨境认为,台积电的直触硅液冷技术似乎最接近商业化且最为适用,因为该公司目前生产着绝大多数AI加速器。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/ai-dc-cooling-10b-market-liquid-cool-15pc.html

评论(0)
暂无评论,快来抢沙发~
2025年,随着AI和超大规模云发展,数据中心散热技术迎来变革。液冷技术份额增至46%,风冷面临挑战。英伟达等厂商推动直触芯片液冷,嵌入式冷却技术崭露头角。市场规模持续扩大,预计2031年达251.2亿美元。
发布于 2025-12-16
查看人数 187
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。