微软探索使用液体来冷却人工智能芯片 - 彭博社
Ian King
数据中心服务器板通过惰性液体浸泡冷却。
来源:绿色革命冷却
以纳米为单位的组件构成的半导体是现代人工智能数据中心的奇迹,但在这些设施中一些最重要的机器是风扇。如果不是不断吹过计算机机架的凉爽空气,先进的芯片会自己烧毁。运行足够多的风扇和空调以防止这种情况发生的成本正在导致芯片制造商和数据中心运营商寻找完全不同的做事方式。
这种愿望在11月15日展示出来,当时微软公司宣布其首次重大进军人工智能先进芯片制造。其新的Maia 100芯片,旨在与英伟达公司的顶级产品竞争,设计为连接到所谓的冷板,这是一种通过其表面下流动的液体保持凉爽的金属设备。这种技术可能是完全浸入式冷却的中间步骤,其中整个服务器机架在专门液体的槽中运行。
连接到新的微软芯片的冷却板有两根管道,一根用于引入冷水,另一根用于排出加热的液体。来源:微软必须担心服务器散热的人多年来一直知道液冷技术的优势——水的散热能力大约是空气的四倍。一些加密挖矿者已经尝试过这种技术,一些数据中心已经在将冷板技术应用到为标准空气冷却设计的芯片上。渴望从他们的个人电脑系统中挤出性能并减少高功率风扇嘈杂声的硬核玩家,展示了他们的自定义冷却系统,其中包括发光的水管。
但是液冷也有其缺点。水会导电,可能会损坏昂贵的设备,如果不得不直接接触计算机,则需要使用替代液体。对于许多大型数据中心来说,实施全新的冷却策略将是一个庞大的基础设施项目。运营商将不得不担心,例如,如何防止地板在需要浸没七英尺高的计算机机柜的所有液体重量下坍塌。这导致主要数据中心运营商坚持使用风扇,将液冷技术留给了爱好者。
人工智能的大规模计算需求正在改变这个方程式。增加芯片容量的进步会使其需要的电力增加;使用的电力越多,产生的热量就越多。每个 Nvidia H100 AI accelerator,作为人工智能开发的黄金标准,至少使用300瓦的电力——大约是65英寸平板电视的三倍。一个数据中心可能会使用数百甚至数千个这样的处理器,每个处理器的成本都超过一个家庭汽车。
冷却是数据中心最快增长的物理基础设施成本,根据Omdia Research的一份2023年11月报告,其复合年增长率为16%。据英特尔公司的产品可持续性执行官Jennifer Huffstetler表示,数据中心总用电量中多达40%用于冷却。她说:“电力是数据中心的头号限制因素。”与冷却相关的挑战导致一些数据中心削减某些类型的组件,留出机架之间的空间,或者降低昂贵芯片的速度以防止过热。
围绕微软新Maia芯片构建的计算机机架,配备了辅助冷却硬件。来源:微软微软的Maia芯片设计为与大型冷却器配合使用,通过冷板直接连接到冷却器,循环液体。这使得芯片可以在标准数据中心中运行,微软表示将于2024年开始安装这些芯片。微软的Azure云部门希望最终使液冷技术成为其所有数据中心运营的更大一部分,Azure首席技术官Mark Russinovich表示:“这是经过验证的技术,已经投入生产使用。”他坐在家里的办公室说:“这项技术已经在生产中使用了很长时间,包括在我的游戏PC下面。”
在接下来的几年里,微软还计划开发可以容纳浸入式冷却的数据中心,机架将在冷却浴中运行。这将比冷板更有效,但也需要对每个级别的设备进行广泛的检查。
浸入式冷却中一个棘手的问题是使用什么类型的液体。先前的实验使用所谓的永久化学物质,聚氟烷烷基物质,这些物质不会自然分解。安全顾虑和环境法规导致这些化学物质的使用减少;3M,一家主要制造商,于2022年底表示将停止生产这些化学物质。
微软尚未透露其系统将使用何种液体。能源公司壳牌公司已经开发了一种将天然气转化为合成液体的过程,英特尔表示正在对其进行测试。
其他主要芯片制造商对液体冷却的计划仍不清楚。Huffstetler表示,英特尔最近改变了其政策,允许客户构建自己的液冷系统来冷却特定的英特尔产品,而不会使其保修失效。
为了使数据中心跟上先进人工智能系统的要求,可能需要进行根本性的改革。寻找设施的场所已经变得更具挑战性,因为一些社区抵制接受提供少量工作机会的耗能工厂。
液冷技术有可能使人工智能成为更好的邻居,因为它可以成为热水的来源。Equinix是最大的外包数据中心提供商之一,该公司的运营商之一Jon Lin已经开始实施冷板散热技术。他表示,该公司将利用巴黎某设施的排水来为2024年奥运会期间的游泳池供暖。—与Dina Bass合作