人工智能热潮已至,云计算恐难招架 - 《华尔街日报》
Isabelle Bousquette
许多公司表示,在训练和运行大型AI应用时,云计算是他们的首选方案**——**但如今,现有云基础设施中实际能支持AI应用的仅占很小一部分,其余部分尚不具备这种能力。
当前,包括亚马逊云科技、微软Azure和谷歌云在内的云服务商正面临压力,亟需调整资源配置以满足AI爆发式增长的计算需求**——**与此同时,其他硬件供应商也看到了潜在的市场机遇。
“目前供需之间存在相当大的不平衡,”亚马逊云科技弹性计算云部门产品管理总监切坦·卡普尔表示。
现今大多数生成式AI模型都在云端进行训练和运行。高通技术公司产品管理高级副总裁齐亚德·阿斯加尔指出,这些旨在生成原创文本和分析的模型,其规模可能比传统AI模型大10倍至100倍,同时应用场景数量和用户规模也呈现爆炸式增长。
“当前对运行大语言模型的需求永无止境,”Azure AI基础设施总经理尼迪·查佩尔表示,包括制造业和金融业在内的各行业都是如此。
这种情况给本就有限的算力资源带来了前所未有的压力——这些算力依赖于数量更为稀缺的专用芯片,例如英伟达的图形芯片(GPU)。强生、Visa、雪佛龙等企业均表示,计划将云服务商用于生成式AI相关场景。
谷歌位于荷兰埃姆斯哈文的数据中心。谷歌云平台表示,正将AI基础设施作为其整体服务器群的重要组成部分。图片来源:乌得勒支·罗宾/阿巴卡/祖马新闻社但大部分现有基础设施并非为运行如此庞大复杂的系统而设计。云计算曾以"按需付费、灵活扩容"的便利性自诩,用以替代本地服务器。当前云服务主体仍由通用CPU芯片驱动的服务器构成,这些服务器设计初衷是同时处理多任务负载。
分析师指出,仅有少数云服务运行在专为AI优化的芯片上,例如GPU和集群协作式服务器,这类设备能支撑包括大型AI模型在内的更重负载。GPU因其并行计算优势更适合AI运算,而CPU的并发计算能力相对有限。
亚马逊云科技(AWS)单个集群可容纳2万块GPU。卡普尔表示,AI优化基础设施目前仅占公司云服务总量的很小部分,但增速显著。该公司计划未来12个月内部署多个AI优化服务器集群。
微软Azure和谷歌云平台均表示正在提升AI基础设施占比。但微软的查普尔强调,这并不意味着放弃仍具商业价值的共享服务器(通用计算)架构。
科技研究与咨询公司Forrester的首席分析师李·苏斯塔尔表示,其他硬件供应商在此领域有机会一展身手,他专注于企业公共云计算领域的研究。
戴尔科技预计,与高负荷使用(包括模型训练)相关的高昂云成本可能促使部分企业考虑本地化部署。该计算机制造商已推出专为此设计的服务器。
“现有的以公共云为主的经济模型并未针对企业采用AI系统后将面临的需求量和活动水平进行优化,”戴尔全球首席技术官约翰·罗斯表示。
罗斯指出,采用本地部署可帮助企业节省网络和数据存储等成本。
云服务提供商表示,他们提供多种不同价位的服务方案,并强调从长远来看,本地部署最终可能成本更高,因为企业升级硬件时需投入巨额资金。
高通公司表示,在某些情况下,企业在单个设备上运行模型可能更经济高效且速度更快,从而减轻云端压力。该公司目前正致力于提升设备运行更大型模型的能力。
惠普企业正在推出由其超级计算机驱动的公共云服务,该服务将于2023年下半年面向需要训练生成式AI模型的企业开放。高性能计算、人工智能与实验室执行副总裁兼总经理贾斯汀·霍塔德表示,与部分新型云基础设施类似,该服务的优势在于专为大规模AI应用场景构建。
硬件供应商一致认为,目前仍处于早期阶段,最终解决方案可能是混合型的,例如部分计算在云端进行,部分在个人设备上完成。
Sustar表示,从长远来看,云存在的根本意义正在发生质变——从替代企业难以维护的本地硬件,转变为一种全新形态:提供企业前所未有的大规模计算能力。
“这实际上是我们看待基础设施方式、架构设计方式和交付基础设施方式的根本性变革,“谷歌云机器学习、系统和云人工智能副总裁兼总经理Amin Vahdat表示。
联系记者Isabelle Bousquette请致信[email protected]
本文发表于2023年7月11日印刷版,标题为《云计算或难承载人工智能爆发式增长》。