算力狂飙撞上“水墙”与“人墙”:冷却系统正成为AI基建的新命门

9 小时前6.1k
AI算力扩张正将数据中心的基础设施矛盾推向一个前所未有的临界点。

AI算力扩张正将数据中心的基础设施矛盾推向一个前所未有的临界点。

当电力短缺已成为市场共识,三道更为隐蔽的“硬约束”——冷却系统、水资源消耗与劳动力短缺——正悄然浮出水面,成为制约下一轮数据中心建设的核心变量。

巴克莱最新研报揭示了一个关键趋势:随着英伟达GPU机架功率密度从2020年的10-25千瓦/机架跃升至Blackwell架构的120-150千瓦/机架,并预计在2027年后的Rubin Ultra架构中突破600千瓦/机架,传统风冷已不堪重负,冷却系统的重要性已可与电力供应并列。这是技术路线的更迭,也是一场深刻影响数据中心基础设施投资逻辑的结构性变革。

数据中心服务器的本质是“电力锅炉”,几乎所有流经IT设备的电能最终都转化为废热。当单机架功耗突破风冷效率边界,液冷从可选变为必选。

然而市场普遍存在一个核心误解:将液体冷却等同于高耗水。巴克莱明确指出,液冷系统实际在封闭回路中运行,冷却液一次注入可持续循环,正常运营期间并不产生净消耗。

真正的水资源“杀手”是蒸发冷却——水在蒸发过程中吸热并以水蒸气形式散失,形成持续性消耗。

这意味着,推广液冷非但不是水资源的负担,反而可以通过提高冷却液供水温度,减少乃至消除对蒸发冷却的依赖,成为节水的解决方案之一。

但数据中心的真实水足迹远比直接冷却复杂得多。美国能源部数据显示,2023年美国数据中心直接冷却水耗约660亿升,预计到2028年可能增至每年1450亿至2750亿升。

然而这仅是冰山一角。支撑数据中心运营的发电环节——燃气、燃煤、核能等热电厂均需大量冷却用水,产生的间接水耗规模惊人。

以2023年美国数据中心约176太瓦时的电力需求计算,对应的间接水耗接近8000亿升。国际能源署估计,全球数据中心综合冷却、发电及半导体供应链的年取水量约为5.2万亿升。

Meta披露的数据极具说明性:该公司2024年购电所嵌入的间接水耗超过720亿升,而直接现场取水量仅为56亿升,两者相差近13倍。这意味着,仅关注现场水耗效率指标,将导致对数据中心实际水资源影响的严重低估。

面对这一复杂局面,四大超大规模云厂商的冷却策略正在出现显著分化。微软已启用以风冷冷水机为核心的零蒸发冷却设计,目标是2030年前实现全球运营水资源“正效益”,其2024财年水资源提取量同比下降约20%,水使用效率降至0.27升/千瓦时。

Meta路径相似,其最新一代AI数据中心以直接液冷结合干式冷却器,正常冷却过程中几乎不消耗水资源,即便2024年电力需求增长约21%,取水量仅上升约7%。

谷歌的策略则截然不同,其有效水使用效率超过1.3升/千瓦时,显著高于同行,坚持在低水资源风险地区部署蒸发冷却以降低电耗及相关碳排放,但在高水资源压力地区已全面转向风冷。

亚马逊则采取区域差异化策略,全球水使用效率同比改善17%至0.15升/千瓦时,但在高水资源风险地区明确避免水冷设计。这种策略分化意味着,冷却设备供应商的市场格局将因不同运营商的路径选择而面临截然不同的需求曲线。

冷却系统之外,劳动力短缺正成为被严重低估的工期与成本风险。冷却系统的安装高度依赖现场专业技工,是数据中心各子系统中劳动密集程度最高的环节。液冷回路或冷水机组的安装涉及泵、阀门、热交换器和定制管道网络,需要水管工、管道安装工、暖通空调技术员、焊工、电气工程师及调试工程师等多工种协同作业。

这与插接预制电力模块或服务器机架的标准化作业形成鲜明对比。Crusoe公司在美国德克萨斯州阿比林星际之门项目的经验极具说服力:数据中心开发的劳动力成本约为每兆瓦470万美元,约占含自备电厂总成本的25%。该项目工地日均工人数量约9000人,另一处Claude项目的工人数量达3500人,超过该镇总人口的两倍。

由于项目地处偏远,开发商不得不从其他地区招募工人并提供大量留人激励。劳动力短缺带来三重冲击:进度风险放大,冷却系统安装调试延误将直接推迟数据中心投产;成本通胀加剧,激烈的工种竞争持续推高工资及分包商报价;技术取舍异化,部分开发商在劳动力受限情况下可能优先选择施工难度更低的风冷设计,而非性能更优的液冷方案。这同时也为预制化冷却单元等模块化解决方案创造了结构性机遇。

LG Electronics预测,数据中心风冷及液冷冷水机市场规模将从2026年的16亿美元扩张至2030年的127亿美元。

但更值得关注的是,随着运营商从湿冷塔转向风冷方案,风冷冷水机需求有望进一步增长,而沉浸式冷却因运维复杂及PFAS监管压力仍将属于小众方案。

风冷也不会消失,即便在液冷数据中心,网络设备、内存、存储等仍依赖风冷,混合架构将是长期常态。余热利用虽备受关注,但受温度不匹配、市政协调复杂及资本投入高等制约,难以成为冷却系统设计的主流考量。

AI算力的狂飙突进正在撞上一道由冷却、水资源和劳动力构成的复合型“硬约束”。对于投资者而言,仅关注芯片和服务器已远远不够,数据中心基础设施层的技术路径选择、区域资源禀赋和人力成本结构,正成为决定算力扩张速度与成本曲线的关键变量。

在这场冷却革命中,能够提供节水、预制化、低施工复杂度的解决方案提供商,有望成为下一阶段数据中心建设浪潮的核心受益者。

免责申明:本文所载内容基于公开信息及第三方研究机构数据,仅供分析参考,不构成任何投资建议。市场有风险,投资需谨慎,读者据此操作产生的盈亏与本机构及作者无关。


格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

App内直接打开
商务、渠道、广告合作/招聘立即咨询

相关文章

SiC,AI隐藏主线爆发了

价值进化论 · 昨天 23:31

cover_pic

AI电源/先进封装新需求:碳化硅(SiC)供应格局梳理

伏白的 交易笔记 · 昨天 21:09

cover_pic

从“力大砖飞”到“拟态共生”,重新定义AI基础设施的系统级进化

Alter聊科技 · 昨天 20:43

cover_pic
我也说两句