亚马逊计划推出自己的人工智能芯片以与英伟达竞争 - 彭博社
Matt Day, Ian King, Dina Bass
詹姆斯·汉密尔顿手持Trainium2芯片。
摄影师:乔娜·卡辛格/彭博社在一个平淡的北奥斯汀社区,匿名的企业办公大楼占据主导地位,亚马逊公司的工程师们正在努力进行科技行业最雄心勃勃的项目之一:削弱英伟达公司在超过1000亿美元的人工智能芯片市场上的控制。
亚马逊的实用工程实验室里有一排排长工作台,俯瞰着德克萨斯州首府不断扩张的郊区。这里有点乱。印刷电路板、冷却风扇、电缆和网络设备散落在各个工作站上,处于不同的组装状态,有些沾上了用于将芯片连接到防止过热的组件上的导热膏。这里有一种你在初创公司中会看到的自我创业氛围,而不是一家市值超过2万亿美元的公司。
在这里工作的工程师们毫不在意地跑到家得宝去买钻床,并乐于学习自己专业领域之外的知识,以加快进度。在努力从零开始创建机器学习芯片的多年过程中,他们发现自己有责任尽快推出一款与英伟达竞争的产品。这不仅仅是关于原始计算能力。这是关于构建一个简单、可靠的系统,能够迅速将亚马逊的数据中心转变为巨大的人工智能机器。
亚马逊在奥斯汀的实用工程实验室的工程师。摄影师:塞尔吉奥·弗洛雷斯/彭博社
你会在一家初创公司看到的自我启动氛围,而不是一家市值超过2万亿美元的公司。摄影师:塞尔吉奥·弗洛雷斯/彭博社拉米·辛诺是一位外向的黎巴嫩出生的工程师,在芯片行业工作了几十年,负责芯片设计和测试。他帮助创建了亚马逊AI半导体的前两代产品,现在正急于在年底之前让最新版本Trainium2在数据中心可靠运行。“让我夜不能寐的是,我如何尽快到达那里,”辛诺说。
在过去两年中,英伟达已从一家小众芯片制造商转变为生成性AI所需硬件的主要供应商,这一区别使得该公司成为全球市值最大的公司。英伟达的处理器每个售价数万美元,由于需求旺盛,难以获得。上周,在报告收益后,这家芯片制造商告诉投资者,其最新硬件的需求将在几个季度内超过供应——加剧了紧张局势。
英伟达最大的客户——云服务提供商如亚马逊网络服务、微软公司的Azure和谷歌母公司Alphabet公司的Google Cloud Platform——急于减少对英伟达芯片的依赖,甚至希望替代它们。三家公司都在研发自己的硅芯片,但作为最大的租赁计算能力销售商,亚马逊迄今为止部署了最多的芯片。
在许多方面,亚马逊理想地位于成为人工智能芯片的强者。十五年前,该公司发明了云计算业务,并随着时间的推移,开始构建支撑它的基础设施。减少对一个又一个现有厂商的依赖,包括英特尔公司,亚马逊拆除了其数据中心中的许多服务器和网络交换机,并用定制硬件替换它们。然后,十年前,詹姆斯·汉密尔顿,一位高级副总裁和杰出的工程师,凭借着非凡的时机感,说服杰夫·贝索斯制造芯片。
“我们坚信我们可以生产出与他们平起平坐的产品。”
当OpenAI的ChatGPT在两年前开启生成性人工智能时代时,亚马逊被广泛认为是一个跟随者,措手不及,挣扎着赶上。它尚未生产出被视为与ChatGPT或由Anthropic构建的Claude竞争的大型语言模型,而亚马逊已向后者投资了80亿美元。但亚马逊所构建的云机器——定制服务器、交换机、芯片——使首席执行官安迪·贾西能够开设一个人工智能超市,出售希望使用其他公司构建的模型的企业所需的工具,以及为训练自己人工智能服务的公司提供的芯片。
在这个行业工作了近四十年,汉密尔顿知道将亚马逊的芯片雄心提升到下一个水平并不容易。设计可靠的人工智能硬件很难。也许更难的是编写能够使芯片对广泛客户有用的软件。英伟达的设备可以顺利处理几乎任何人工智能任务。该公司正在向包括亚马逊在内的客户发货其下一代芯片,并已开始宣传一年后将取代它们的产品。行业观察人士表示,亚马逊不太可能在短期内撼动英伟达。
詹姆斯·汉密尔顿表示,亚马逊可以与英伟达“平起平坐”竞争。摄影师:乔娜·卡辛格/彭博社尽管如此,汉密尔顿和亚马逊的工程团队一次又一次地证明了他们在紧张预算下解决重大技术问题的能力。汉密尔顿说:“英伟达是一家非常非常有能力的公司,做着出色的工作,因此他们将为许多客户提供良好的解决方案,持续很长一段时间。” “我们坚信,我们可以生产出与他们平起平坐的产品。”
汉密尔顿于2009年加入亚马逊,此前曾在国际商业机器公司和微软工作。作为一位行业偶像,他在加拿大本土开始修理豪华汽车,并从一艘54英尺的船上通勤上班,汉密尔顿在一个有利的时刻签约。亚马逊网络服务在三年前首次亮相,单枪匹马地创造了一个被称为云计算服务的行业。AWS很快开始产生大量现金,使亚马逊能够资助许多重大投资。
当时,亚马逊建立了自己的数据中心,但使用其他公司制造的服务器和网络交换机。汉密尔顿领导了一项努力,旨在用定制硬件替换它们,从服务器开始。由于亚马逊将购买数百万台服务器,汉密尔顿认为通过为他不断增长的数据中心舰队量身定制设备,并省去AWS不需要的功能,可以降低成本并提高效率。
这项努力取得了足够的成功,以至于当时负责AWS的贾西询问公司还可以内部设计什么。汉密尔顿建议设计芯片,因为这些芯片正在吞噬越来越多以前由其他组件处理的任务。他还建议亚马逊使用能效高的Arm架构,这种架构为智能手机提供动力,他认为这种技术的普及以及开发者对其日益熟悉,可以帮助亚马逊取代长期以来为全球服务器机房提供动力的英特尔芯片。
“所有的道路都通向我们拥有一个半导体设计团队,”他在2013年8月提交给贝索斯的提案中写道。一个月后,汉密尔顿喜欢在下午晚些时候与初创公司和客户聚会,他在西雅图的维吉尼亚酒吧喝酒,遇见了纳菲亚·布沙拉。
布沙拉是一位以色列芯片行业老兵,2000年代初搬到旧金山湾区,他共同创立了安纳普尔纳实验室,实验室的名字来源于尼泊尔的山峰。(布沙拉和一位联合创始人本打算在创办初创公司之前登顶这座山,但投资者急于让他们开始工作,他们从未成行。)
这家隐秘的初创公司在大多数行业专注于手机的时期,开始为数据中心制造芯片。亚马逊委托安纳普尔纳生产处理器,两年后以3.5亿美元收购了这家初创公司。这是一个具有前瞻性的举动。
电路板。摄影师:塞尔吉奥·弗洛雷斯/彭博社Bshara和Hamilton起步较小,反映了他们对实用工程的共同欣赏。那时,每个数据中心服务器都保留了一部分计算能力来运行控制、安全和网络功能。Annapurna和亚马逊的工程师开发了一种名为Nitro的卡片,完全将这些功能从服务器中抽离,使客户能够访问其全部性能。
后来,Annapurna使Hamilton的Arm通用处理器得以实现。名为Graviton的产品的运行成本低于竞争对手英特尔的设备,使亚马逊成为台湾半导体制造公司的十大客户之一,该公司为行业中的大部分生产芯片。
到那时,亚马逊高层已经对Annapurna在不熟悉领域的表现充满信心。“你会发现很多公司在CPU方面非常出色,或者在网络方面非常出色,”Bshara说。“很少能找到在两个、三个或四个不同领域都很优秀的团队。”
在Graviton开发期间,Jassy问Hamilton亚马逊还可能自己制造什么其他产品。2016年底,Annapurna委派了四名工程师探索制造机器学习芯片。这是另一个及时的赌注:几个月后,一组谷歌研究人员发表了一篇开创性的论文,提出了一种使生成性人工智能成为可能的过程。
这篇论文,标题为“注意力是你所需要的一切”,介绍了变压器,这是一种软件设计原则,帮助人工智能系统识别训练数据中最重要的部分。它成为了能够对单词之间的关系进行有根据的猜测并从头创建文本的系统的基础方法。
大约在这个时候,拉米·辛诺在奥斯汀为Arm Holdings Plc工作,并指导他上学的儿子参加机器人比赛。团队开发了一个应用程序,使用机器学习算法分析照片,检测每年夏天定期污染奥斯汀湖泊的藻类繁殖。辛诺对孩子们仅凭一台笔记本电脑所能做的事情感到印象深刻,他意识到一场革命即将来临。他于2019年加入亚马逊,帮助领导其人工智能芯片制造工作。
该部门的第一款芯片旨在为一种叫做推理的功能提供动力——当计算机经过训练以识别数据中的模式时,进行预测,例如一封电子邮件是否是垃圾邮件。这个组件,称为Inferentia,于2019年12月在亚马逊的数据中心推出,后来被用于帮助Alexa语音助手响应命令。亚马逊的第二款人工智能芯片Trainium1,旨在帮助希望训练机器学习模型的公司。工程师们还将该芯片重新包装,配备了使其更适合推理的组件,称为Inferentia2。
亚马逊的人工智能芯片最初需求缓慢,这意味着客户可以立即获得它们,而不是等待几周才能获得大量的Nvidia硬件。希望迅速加入生成性人工智能革命的日本公司利用了这一情况。例如,电子制造商理光公司获得了帮助,将基于英语数据训练的大型语言模型转换为日语。
根据早期安纳普尔纳员工Gadi Hutt的说法,需求自那时以来有所回升。“我没有任何闲置的Trainium等待客户,”他说。“它们都在被使用。”
Trainium2是该公司的第三代人工智能芯片。根据行业的看法,这是一个生死攸关的时刻。要么第三次尝试以足够的销量销售以使投资值得,要么它失败,公司找到新的道路。“我从未见过产品偏离三代规则,”负责Databricks Inc.人工智能工作的芯片行业老兵Naveen Rao说,该公司是一家数据和分析软件的供应商。
Databricks在十月同意将Trainium作为与AWS达成的广泛协议的一部分。目前,该公司的人工智能工具主要运行在Nvidia上。计划是用Trainium替代其中的一部分工作,亚马逊表示,Trainium在价格上可以提供30%的更好性能,Rao说。“这归结为纯粹的经济学和可用性,”Rao说。“这就是战场所在。”
Trainium1由八个芯片组成,紧密排列在一个深钢箱中,允许它们的热量充分散发。AWS租给客户的完整包由这两个阵列组成。每个箱子里充满了电线,整齐地包裹在网状包装中。
一排人工智能芯片。摄影师:Sergio Flores/Bloomberg对于Trainium2,亚马逊表示其性能是前一代的四倍,内存是三倍,工程师们取消了大部分电缆,而是通过印刷电路板来传输电信号。亚马逊还将每个盒子中的芯片数量减少到两个,以便在对一个单元进行维护时,工程师需要拆除的其他组件更少。Sinno开始将数据中心视为一台巨型计算机,这种方法得到了Nvidia首席执行官黄仁勋的鼓励,呼吁整个行业采用。“简化在这里至关重要,这也确实让我们能够更快地推进,”Sinno说。
亚马逊并没有等到台积电生产出Trainium2的工作版本才开始测试新设计的可行性。相反,工程师们将两个前一代芯片固定在电路板上,给他们时间来开发控制软件并测试电气干扰。这相当于半导体行业在飞行中建造飞机。
亚马逊已经开始向俄亥俄州及其他地方的数据中心发运Trainium2,计划将其串联成多达100,000个芯片的集群。亚马逊的主要数据中心枢纽将进行更广泛的推广。
负责芯片设计和测试的Rami Sinno开始将数据中心视为一台巨型计算机。摄影师:Sergio Flores/Bloomberg该公司旨在每18个月推出一款新芯片,部分原因是减少硬件需要外部供应商的次数。在钻床对面的实验室里,放置着一组示波器,亚马逊用来测试卡和芯片是否有坏连接器或设计缺陷。Sinno暗示未来版本的工作已经在进行中:在另一个实验室里,刺耳的风扇为测试单元降温,四对管道悬挂在天花板上。它们现在被封闭,但已准备好迎接未来AWS芯片产生过多热量而无法仅靠风扇冷却的那一天。
其他公司也在推动极限。Nvidia 将其芯片的需求形容为“疯狂”,正在努力每年推出一款新芯片,这一节奏导致其即将推出的 Blackwell 产品出现生产问题,但将给行业其他公司带来更大的压力以跟上。与此同时,亚马逊的两大云竞争对手正在加速他们自己的芯片计划。
谷歌大约在 10 年前开始构建 AI 芯片,以加速其搜索产品背后的机器学习工作。后来,该公司将该产品提供给云客户,包括像 Anthropic、Cohere 和 Midjourney 这样的 AI 初创公司。该芯片的最新版本预计将在明年广泛上市。今年 4 月,谷歌推出了其首款中央处理单元,一款类似于亚马逊 Graviton 的产品。“通用计算是一个非常大的机会,”谷歌副总裁 Amin Vahdat 说,他领导着从事芯片和其他基础设施工作的工程团队。他表示,最终目标是让 AI 和通用计算芯片无缝协作。
拼图块标示着汉密尔顿为亚马逊申请的众多专利。摄影师:Chona Kasinger/Bloomberg微软比 AWS 和谷歌晚进入数据中心芯片游戏,去年底才宣布了一款名为 Maia 的 AI 加速器和一款名为 Cobalt 的 CPU。与亚马逊一样,该公司意识到可以通过为其数据中心量身定制硬件来为客户提供更好的性能。
拉尼·博卡尔,一位在英特尔工作了近三十年的副总裁,领导着这一努力。本月早些时候,她的团队向微软的产品组合中添加了两款产品:一款安全芯片和一款数据处理单元,后者加快了CPU与图形处理单元(GPU)之间的数据流动。英伟达也销售类似的产品。微软一直在内部测试这款AI芯片,并刚刚开始将其与其英伟达芯片组合使用,以运行让客户能够使用OpenAI模型创建应用程序的服务。
尽管微软的努力被认为落后于亚马逊几代,但博卡尔表示,公司对目前的结果感到满意,并正在研发更新版本的芯片。“人们的起点并不重要,”她说。“我的关注点完全是:客户需要什么?因为你可能走在前面,但如果你构建的是客户不想要的错误产品,那么在硅上的投资是如此庞大,我不想成为那本书中的一章。”
尽管三大云巨头都在竞争,但他们都赞扬英伟达,并在新芯片(如Blackwell)上市时争夺市场地位。
如果亚马逊的Trainium2能够承担更多公司的内部AI工作,以及偶尔来自大型AWS客户的项目,它可能会被视为成功。这将有助于释放亚马逊珍贵的高端英伟达芯片供应,以供专业的AI公司使用。为了使Trainium2成为无可争议的热门产品,工程师们必须将软件做好——这并非易事。英伟达的强大很大程度上源于其工具套件的全面性,使客户能够以很少的定制化将机器学习项目上线。相比之下,亚马逊的软件Neuron SDK仍处于起步阶段。
即使公司可以毫不费力地将其项目迁移到亚马逊,但根据一位要求匿名以便自由发言的亚马逊和芯片行业老兵,检查切换是否破坏了任何东西可能会消耗数百小时的工程师时间。 一位帮助客户进行人工智能项目的AWS合作伙伴的高管也要求匿名,他表示,尽管亚马逊成功地使其通用Graviton芯片易于使用,但潜在的AI硬件用户仍面临额外的复杂性。
“Nvidia占据主导地位是有原因的,”跟踪人工智能技术的Gartner Inc.副总裁Chirag Dekate说。“你不必担心那些细节。”
因此,亚马逊寻求帮助——鼓励大客户和合作伙伴在与AWS达成新协议或续约时使用这些芯片。这个想法是让前沿团队充分利用这些硅芯片,找出改进的领域。
其中一家公司是Databricks,他们预计需要数周或数月才能使事情运转起来,但愿意付出努力,希望承诺的成本节省能够实现。人工智能初创公司Anthropic,OpenAI的竞争对手,在去年接受了亚马逊40亿美元的资金后,同意在未来的开发中使用Trainium芯片,尽管它也使用Nvidia和谷歌的产品。上周五,Anthropic宣布获得亚马逊的另一笔40亿美元注资,并加深了合作关系。
“我们对亚马逊Trainium芯片的性价比特别印象深刻,”Anthropic的首席计算官Tom Brown说。“我们一直在不断扩大它们在越来越广泛的工作负载中的使用。”
汉密尔顿表示,Anthropic正在帮助亚马逊快速改进。但他清楚地认识到挑战,他说,创建优秀的软件,使客户能够轻松使用AWS芯片是“必需的”。“如果你不弥补复杂性差距,”他说,“你将会失败。”