构建AI数据中心真正需要什么 - 彭博社
Joe Weisenthal, Tracy Alloway
Nvidia公司的Quantum-X800 InfiniBand平台在2024年6月5日星期三在台湾台北展出。Nvidia已经是全球市值最高的半导体公司。现在,它成为史上第一家市值达到3万亿美元的计算机芯片公司。摄影师:Annabelle Chih/Bloomberg 众所周知,人工智能的繁荣建立在对芯片(主要由Nvidia出售)和电力的贪婪消耗之上。虽然像亚马逊或微软这样的传统云运营商也进入了这个领域,但计算转变的性质正在为市场中的新玩家开辟新空间。其中最炙手可热的公司之一是CoreWeave,这家公司在一定程度上得到了Nvidia的支持,已经大规模发展了其数据中心业务。那么他们的业务实际上是如何运作的呢?他们如何获取能源?他们在哪里设立运营?他们是如何融资的?云人工智能和传统云之间有什么区别?在这一集中,我们与CoreWeave的首席战略官Brian Venturo讨论了在这一规模上建立运营所需的条件。为了更清晰地表达,对对话进行了轻微编辑。
播客中的关键见解:最大程度减少数据中心振动有多重要?— 5:37什么区别了人工智能云服务提供商?— 6:46成为CoreWeave客户需要什么条件?— 9:20CoreWeave是建造还是租用空间?— 14:44服务有多少是定制的?— 15:49人工智能云与传统云的区别— 18:33了解Nvidia的主导地位— 21:50寻找电力的挑战— 25:58了解电网可靠性— 31:25比特币矿工的资产有价值吗?— 35:16下一代Nvidia芯片将提供什么?— 36:33债务融资在科技行业会更加普遍吗?— 39:46供应链中的约束在哪里?— 43:05
---
**Joe (00:20):**你好,欢迎收听另一集《Odd Lots》播客。我是乔·韦斯坦索尔。
**Tracy (00:25):**我是特蕾西·阿洛维。
**Joe (00:26):**特蕾西。我们当然已经做了很多关于电力、人工智能和数据中心等方面的课程,但我们从未真正做过…我们从未与正在建造数据中心的人交谈过,就我所记得的。
**Tracy (00:41):**你是说把所有东西都整合在一起吗?
**Joe (00:43):**只是把所有东西整合在一起。我们曾经与顾问交谈过,与能源人士交谈过,但这个基本上是建造一座建筑物,把一堆芯片放进去,获取电力,然后理论上以溢价出售所有这些东西的业务。它实际上是如何运作的?
**Tracy (01:01):**你知道吗,我最近看到了一些东西,这有点跑题,但实际上并不是,因为我们正在谈论围绕建造这些东西的物理和财务过程,但我在网上看到了一份关于 1963 年左右 IBM System 360 的物理规划指南,长达 213 页。
**Joe (01:27):**你看过吗?
**Tracy (01:28):**我翻了一下。里面有关于减少振动、温度和湿度等方面的指导。我没有看完全部 200 页,但我在想,如果这是所有必须考虑的事情,尽管是上世纪 60 年代的一台超级计算机,但现在回头看是一台相当基本的机器,那么建造这些庞大的云服务器及其所有相关基础设施,无论是物理上还是软件上,需要多少规划和思考呢?
**乔(02:02):**不,完全是这样。我们已经稍微谈到了这个话题的一部分,就是在与史蒂夫·艾斯曼的对话中,他一直在投资于许多工业暖通空调公司和电力设备公司等等。所以这些公司实际上已经存在了很长时间,是标准的周期性企业,然后它们因为人工智能数据中心建设的繁荣而捕捉到了这种长期的顺风,突然之间所有他们的设备和服务都有了持续的需求。
**特蕾西(02:37):**我要开始做一个防震地板制造商之类的东西。你觉得这是一个可行的生意吗?还有人在意震动吗?
**乔(02:44):**我可以肯定,在各种高科技环境中,你不希望有震动。你有宝贵的芯片,你不希望它们受损。
**特蕾西(02:54):**人们在四处走动。
**乔(02:56):**或者所有的机器和所有的空气和冷却设备等等。你不能让这些东西受损。嗯,
**特蕾西(03:03):**现在这个领域正在发生的另一件有趣的事情,除了建造大量这些设备的物理挑战之外,还有它的财务方面,我想随着人工智能变得越来越重要,显然正如你所阐述的,目前对这个领域有很多热情。
你看到很多金融实体也对此感兴趣。显然,风险投资一直在向这个领域注入资金,但我们开始看到一些新型的金融投资方式涉足AI,我特别想谈一下的是最近《华尔街日报》报道的GPU或芯片支持的贷款,我认为我们也应该谈谈这方面。
**Joe (03:48):**完全正确。因为在科技领域正在发生的一件大事是,过去你的成本或者其中很大一部分是操作支出,工程师的成本等等,而现在突然间科技公司不得不首次考虑资本支出。这些理论上会长期回报的大笔前期成本,这从理论上改变了你应该如何考虑融资模式。
**Tracy (04:11):**绝对。
**Joe (04:12):**好吧,我很高兴地说,因为我们确实邀请到了完美的嘉宾。我们将与Brian Venturo 进行对话。他是CoreWeave的首席战略官。对于那些不了解的人来说,CoreWeave目前可能是人们最认为处于AI数据中心繁荣核心的公司。他们拥有大量的Nvidia芯片,他们从Nvidia获得了投资,正处在甜蜜点。正如你提到的,正在发生的有趣事情之一是,他们不久前宣布了一个由他们将要收购的GPU支持的债务融资设施。因此,他绝对是了解这些AI云数据中心运营业务的完美人选。所以Brian,非常感谢你的到来。
**Brian (05:02):**谢谢你邀请我。这是我第二次参加这个播客。
**Joe (05:04):**没错。我们几年前就和Brian谈过。回想起那个时候很有意思,因为我觉得那可能是在2020或21年,当时的兴奋点是这些芯片可以用于加密挖矿和其他类似分布式视频编辑等用途。后来以太坊停止使用挖矿,但那时机巧的是,AI开始疯狂发展,这可能是这些芯片更高级用途,至少在我看来是这样。在我们讨论这个之前,你担心数据中心的振动吗?
**Brian (05:37):**所以所有靠近断层线的地方都是根据这个设计的,也是代码的一部分。帮助我们建造这些数据中心的工程公司已经考虑到了所有这些,并且我们所有的机架都经过地震调谐,以确保我们可以承受地球的正常振动。
是的,这是很久以前就在那些手册中的内容。我们一些硬件制造商实际上有振动测试实验室,他们把机架放在一个大的平台上进行震动测试,这是相当危险、难以控制和难以观看的,但有人已经解决了这个问题几十年了。
**Tracy (06:15):**我错过了那个商机。听起来好像有人早在几十年前就考虑到了这个问题。
好的,实际上为什么不从一个非常简单的问题开始呢,当你看着CoreWeave这家专业的云服务提供商的业务时,让我们这样说,你需要考虑哪些不同的组成部分呢?Joe稍微提到了所有这些不同的组成部分都涉及到的因素,但是请带领我们了解这些实际上是什么。
**Brian (06:46):**当然。所以作为管理团队,我们认为有三个部分对业务至关重要。
第一个是我们在硬件之上提供的技术服务,这涵盖了从软件层到支持组织再到我们与客户合作的一切。这不是你只需插上就能运行的那种东西,这些大型超级计算机集群中可能有20万个Infinaband连接将所有GPU连接在一起,如果其中一个连接因为任何原因失败,作业将完全停止并必须从上一个检查点重新启动。因此,我们在软件和工程方面所做的一切都是为了确保这些集群尽可能具有弹性和性能,以确保我们的客户能够运行他们的作业,提高效率并充分利用芯片获得所有的货币价值。
因此,技术部分确实很困难。我认为市场对此很容易忽视,但这与这家企业依赖的其他两个部分一样困难。
第二个是业务的物理性质,你必须实际建立和运行这些数据中心以及超级计算机内的数十万个连接。必须有人去组装它们,并确保它们干净,并确保它们被正确标记以便纠正故障。
当您正在构建一台拥有32,000个GPU的超级计算机时,这是地球上速度最快的三台计算机之一,您需要在非常密集的空间内铺设数千英里的电缆。这些数据中心被建得非常小,以确保您可以将所有东西连接在一起,这变成了一个巨大的后勤挑战。因此,数据中心部分,我们今天将更多地谈论,对于使用情况来说设计是非常具有挑战性的。
然后第三部分是你到底如何为整个项目融资,对吧?
在这方面,我们在融资方面非常成功,但无论您是为技术运营还是为这些事物的实际建设融资,这都是一个资本密集型的业务。构建那些支持我们业务的金融工具非常困难,我们必须非常慎重地考虑对手方是谁。我们如何考虑信用风险?我们的投资者如何看待这种信用风险?我们如何处理合同中的意外情况,以确保它们在过去18个月中我们所做的规模上是可融资的?
**Joe (09:02):**再跟我们多谈谈。我们可能可以谈论一下数据中心融资信用,这可能会成为一个完整的话题,但当您考虑到您必须考虑到对手的信用风险时,请跟我们多谈谈,谈谈这些对手是谁,我们在谈论什么类型的实体。
**Brian (09:20):**当然。如果我开始逐个列举它们,我可能会惹麻烦。其中一些比其他一些更为公开。我将称他们为超大规模客户。我们有人工智能实验室客户,我们有大型企业客户。我们确实围绕这样一个想法构建了我们的业务组合,即如果我们要为某人建设价值100亿美元的基础设施,我们必须知道背后有一个我们可以依靠的资产负债表,以及我们增长的速度。
我们的客户要求规模增长得如此迅速,以至于对手方的信用对于找到我们与这些信贷机构宣布的低成本资本非常重要。因此,当人们谈论这是由GPU支持的信贷机构时,实际上并不是由GPU支持,而是由与可能拥有AAA信用的大型国际企业签订的商业合同支持。所以这是如何构建的
**特蕾西(10:15):**基本上是应收账款融资。
**布莱恩(10:17):**是的,这更接近于应收账款融资,而不是,嘿,我们要去杠杆化一堆GPU然后看看会发生什么。
**特蕾西(10:23):**好的。那么,让我们走一遍我猜想在一些这些融资协议中的顺序。所以如果一个客户来找你,他们说,我们需要一定数量的计算能力,你能为我们做到吗?然后你开始进行这个过程,比如,好的,我们需要做些什么才能实现这一点?这些财务协议实际上是什么样的,最初的风险是由客户承担还是由你承担?
**布莱恩(10:51):**好问题。所以当客户来找我们时,要求通常会相当笼统,他们会说,嘿,我们想在明年第一季度有容量。你们能做的最大的事情是什么?我们会将其有效地视为一项任务,好的,嘿,我们之前与这个客户做过生意,我们对他们非常放心。
我们知道我们会签订合同,我们会出去尝试获得一个资产来建造它。它可能已经在我们的投资组合中了。这可能是我们做出的战略性投资,但一旦我们找到数据中心资产,那时我们会回到客户那里,告诉他们,好的,我们可以承诺做到这一点。这是时间表。我们将围绕此制定合同,根据客户是谁,可能会或可能不会有一些与之相关的信用支持,围绕该资产的扩展。
然后我们将签订一份商业合同,最初我们将从我们自己的资产负债表中资助该项目的大部分资金。这也是为什么你看到我们在筹集股本,因为我们必须有资金来加速业务。一旦我们有了资金并取得进展,可以将其视为你在建造房地产,你有一个建造贷款,然后你有一个稳定资产贷款,我们基本上会从我们的资产负债表中资助建造贷款部分。当我们达到更稳定的资产时,那时我们就会与合作伙伴贷款人进行贸易融资或应收账款融资。他们之前与我们合作过。他们知道这些东西会站得住脚,他们知道它们的表现如何,那时对他们来说很容易对这种风险进行核保。
**Joe (12:31):**很有趣,Tracy和我昨天和一个在这个领域的人喝咖啡。我不会在这里透露他的身份。我问他,我们应该问Brian什么?他说,问他为什么不让我的公司,为什么我还在等待名单上,或者为什么他还没有批准我的公司使用CoreWeave。但是有哪些门槛或标准呢?所以显然现在对计算有很大需求。要进入门槛并获得一些芯片和电力需要什么条件?
**Brian (13:01):**这是一个很好的问题。这是我们的销售团队经常问到的问题,我们经常面临的情况是销售团队非常擅长向客户交付产品,但我们没有任何东西可出售。作为CoreWeave战略组织的一员,我的工作就是负责两件事,即产品和基础设施容量。我大部分时间都在外出寻找那些数据中心,并能够支持那些在过去12个月中我们取得的交易和增长。公司在公开建设和交付这些基础设施方面非常忙碌。在我们的文档页面上写着我们有三个地区,到年底我们将有28个地区在线。我想我们仅在第一季度就交付了11个。所以我们正在以一种几乎比三大超大规模的方式进行建设。
但就如何成为CoreWeave的客户而言,这实际上是基于关系的驱动,对吧?我们希望确保我们能够与客户成功合作,并建立工程关系,我们对他们的需求保持一致,并能够提供他们所需的服务。我们最不希望的是有人走进门说:“嘿,我需要这个服务三周”,然后两周后他们不满意,我们无法提供他们成功所需的服务。我们的客户对基础设施做出了如此大的投资,我们必须确信我们能够与他们成功合作并提供良好的体验。因此,我们并不是在试图拒人于门外,而是在努力确保我们为那些加入我们的人提供积极的体验。
**Joe (14:32):**您是建造完整的设施还是将您的芯片和专业知识带入现有的一级数据中心,并从他们那里租用楼层空间?
**Brian (14:44):**一年前,我们实际上只是一个共同租户,现在我们在一些战略性建设中走得更深,我们要么是项目的合作伙伴,拥有开发公司的股权,要么是自己建设项目。在过去的六个月里,我们一直在扩大团队规模,我们必须在我们的规模上能够保证结果,对吧?我们曾经处于一个情况,我们的数据中心因为没有向我们沟通的事情而延迟,我们不得不建立一个能够处理这种情况的能力,并确保我们仍然能够为我们的客户提供服务。
**Tracy (15:17):**你和一些同事先前强调的区别之一是,你们设计服务器集群的方式有点从头开始,而其他超大规模的云服务提供商可能是在不同的规模上进行。但你能否为我们解释一下这样做的好处是什么?其次,这样做是否会成为效率或规模经济的障碍?你们到底有多定制化?
**Brian (15:49):**从定制化的角度来看,这是积极的,我这么说是因为我们的客户参与了我们的网络拓扑设计,包括东西向GPU通信的基础设施设计,比如冷却。我有一些客户每周都会和我一起参观数据中心的建设过程,他们的参与已经影响到我们如何构建基础网络产品,以确保具备足够的吞吐量来满足他们的使用需求。
而在我们所谓的传统超大规模云服务提供商的安装中,可能是他们在一个原本为CPU计算或为提供服务给1万客户而建造的数据中心中拥有几千个GPU,这实际上对他们将要做的事情有着更低的基础期望。因此,这涉及到存储的连接性、电力和冷却、以及他们希望如何优化GPU之间的工作负载通信。
我们有一些客户甚至定制了他们的InfiniBand基础设施以及这些基础设施的规模以及它们如何连接在一起。因此,我们与他们合作,真正了解他们的用例是什么,他们目前和未来的担忧,并围绕此设计。因此,当我们从头开始构建某个东西时,这是一个非常全面的项目。
**Tracy (17:09):**这是否给业务引入了多少复杂性?这是否会成为您增长的限制因素,还是需求目前如此强劲,以至于这并不是一个问题?
**Brian (17:20):**我们通常定制的环境要高于我们的基本服务水平,这意味着环境将更具性能,因为客户需要。因此,从未来的收入或转售角度来看,通常不会对我们构成限制。这将使资产更有价值。但我们正在为99%的用例设计我们的参考构建,并努力高效定价。当客户需要超出预期的服务时,价格会受到影响。但对于这些安装来说,这可能是微不足道的,对吧?因此,从业务角度来看,这对我们并没有增加太多复杂性,所以我们很乐意这样做。
**Joe (17:55):**您提到一些超大规模运算中心,是的,它们有GPU,但它们是为传统CPU构建的环境。您能谈谈传统架构和新架构之间的区别,以及在设计中会遇到什么样的瓶颈吗?是否存在劳动力问题,例如了解如何有效组装这些设备的人员类型,或者这种计算环境是否有不同的冷却要求?在构建这些根本不同的环境时会遇到什么挑战?
**Brian (18:33):**是的,过去12个月中这也发生了变化,您过去可以将企业数据中心进行创造性改造,使其能够支持AI工作负载达到一定的密度水平。您可以在一个机柜中放入两台服务器,满足安装的功耗和冷却要求。您会使用更多的地板空间,但这是可行的。
NVIDIA的一个令人难以置信的地方在于,他们始终在工程方面不断突破界限,他们下一代芯片在很大程度上取决于更具侵略性的热传递,并且已经将液冷引入了参考架构。因此,随着液冷技术的引入,数据中心能够做到的事情也发生了变化。这确实需要从头开始重新设计,几乎只能进行全新的构建来支持它,因为你已经从可以在企业数据中心中每个机柜部署更少的服务器并且可以应付的环境转变为,嘿,以前从未有人构建过这样的系统。它的规模之大令人难以置信,而且现在必须每年进行一次。因此,数据中心行业正在全力以赴地努力找出,好的,我们该如何做到这一点?我们如何快速做到?我们如何使其运作?这就是我过去六个月一直在花费时间的地方。
**Tracy (19:48):**我可以问一个非常基础的问题吗?我们之前已经做过相关的节目,但我对你的看法非常感兴趣,为什么感觉客户,尤其是AI客户如此,我不知道“上瘾”是否是正确的词,但是如此倾心于Nvidia芯片,是什么让他们特别吸引人?其中有多少是由于技术本身,而不是互操作性?
**Brian (20:18):**你必须明白,当你是一个刚刚起步的AI实验室,而在行业中,尽快交付产品和模型是一场竞赛,对你来说,让你的基础设施成为你的致命弱点是一种存在风险。 Nvidia已经证明了一些事情。首先,他们是最优产品的工程师。他们首先是一个工程组织,他们识别和解决问题,他们突破极限,他们愿意倾听客户并帮助您解决问题,并围绕新的用例设计东西。但这不仅仅是创造出色的硬件,而是创造出能够扩展并且可以在规模上得到支持的出色硬件。
当您构建这些装置时,加速器端和InfiniBand链路端都有数十万个组件,所有这些都必须很好地协同工作。当您去找像NVIDIA这样长期以来在规模上拥有如此丰富工程经验的公司时,他们为这些初创公司消除了很多存在风险。所以当我看到一些较小的初创公司表示,我们要走另一条路时,我就在想,你在做什么?你在冒很大的风险,毫无必要。这是一个经过验证的解决方案,是最好的解决方案,并且有最多的社区支持,选择简单的道路,因为你正在踏上的风险已经足够艰巨。
**Tracy (21:41):**这就像那句古老的谚语一样吗?没有人因为购买微软而被解雇。就像没有人因为购买IBM而被解雇?是的,没错。或者IBM,类似这样。
**Brian (21:50):**这里的问题在于,没有人因为购买经过考验、稳定但发展较慢的东西而被解雇。而是因为购买经过考验、性能最佳且处于前沿的东西而被解雇。所以我看那些购买其他产品并投资于其他产品的人,几乎就像他们有点怀疑并且在违背常规。
**Joe (22:14):**有一些竞争对手声称他们比NVIDIA便宜或者拥有更多应用特定的芯片。我记得英特尔出了类似的产品。首先,从CoreWeave的角度来看,你们是否完全依赖Nvidia硬件?
**Brian (22:31):**我们是。
**Joe (22:32):**可能会改变吗
**Brian (22:33):**党的立场是我们将始终受客户驱动,对提供最佳性能、最佳TCO支持的芯片感兴趣。目前和可预见的未来,我坚信这强烈地是Nvidia
**Joe (22:52):**思考。好的,也许有一天你们上市了,我正在查看风险因素,其中一个风险因素是我们过度依赖Nvidia芯片。有一个竞争对手的风险。在你看来,要使这些竞争对手中的一个提供的硬件价格更便宜或者电力消耗更低的风险因素成为现实,需要什么条件?
**Brian (23:15):**我认为他们必须愿意购买市场。我的意思是,他们必须补贴他们的硬件以获得实质性的市场份额。从我所见,迄今为止没有其他人真的愿意这样做。而且
**Joe (23:30):**那么Meta和PyTorch以及他们的所有芯片呢?
**Brian (23:33):**所以他们的内部芯片,我认为他们专门用于非常特定的生产应用,但它们并不是通用芯片。当你为通用目的构建东西时,必须在用例中具有灵活性,虽然你可以构建一个定制的ASIC来解决非常具体的问题,但我认为如果你不确定将来会用它做什么,投资这些作为五年资产是没有意义的。
**Tracy (23:58):**所以你谈到了NVIDIA硬件的优势,比如芯片本身,但有时候你会听到同样的芯片在不同的云中可能表现不同。那么,你能做些什么来提升你的结构或生态系统中相同芯片的性能,与AWS或其他类似公司相比呢?
**Brian (24:22):**当然。很好的问题。我们在内部做了很多工作,这是我们技术差异化的重要部分,我们内部称之为任务控制。任务控制实际上是我们在基础设施上运行的一系列不同服务的组合,以确保这些非常复杂的超级计算机健康、高性能,并且在我们的结构或生态系统中进行了优化,我们会把很多这方面的责任从我们的客户工程团队身上卸下。
听起来可能很容易,但当你在运行超级计算机规模时,你需要一个由50人组成的团队来做这件事,对吧?因此,我们提供了大量的软件自动化,提供健康检查和可观察性给我们的客户。但这也包括工程参与,与我们的客户合作,了解,好的优化方式是什么?我们如何设计数据中心以提高性能,确保你的存储解决方案正确,你的网络解决方案正确。因此,这不仅仅是,嘿,CoreWeave提供了这么一点点东西让它更好。从数据中心设计开始,通过软件自动化和任务控制的健康检查和监控,通过工程关系,真正增加了这个价值。
**乔(25:31):**让我们谈谈电力问题。这已经成为一个巨大的话题,人们普遍认为这是主要限制因素,现在你们正在变得更加垂直整合,需要建立更多的运营,我们曾经与微软的一位前员工交谈过,他说其中一个问题是,一些社区可能会反对将他们稀缺的电力用于数据中心,而不是用于家庭空调。你们目前遇到了什么问题,或者看到了什么情况?
**布莱恩(25:58):**所以我们非常谨慎地选择数据中心的位置。我们在弗吉尼亚州阿什本没有任何设施,我认为北弗吉尼亚市场已经饱和。在那个市场周围有很多不满,关于电力使用以及如何让足够的柴油卡车进入那里为他们的发电机加油以应对长时间停电的问题。所以我认为在某些市场上,我们就像是,好吧,远离那里。当电网出现问题,而那个市场还没有出现问题时,问题就会立刻变得严重。
想想之前在德克萨斯州发生的电力市场危机,我想是在2021年,2020年,电网并没有真正准备好应对严寒天气,天然气发电厂的天然气阀门结冰导致无法启动并产生电力,无论价格多高,都无法解决问题,对吧?
因此,人们将从这些严重问题中吸取教训,监管机构也将从中吸取教训,以确保这种情况不再发生。我们正在选择我们的工厂和市场的位置,我们认为那里的电网基础设施能够应对。问题不仅仅是是否有足够的电力,还有其他方面。
AI工作负载在功耗方面非常不稳定,这是因为每隔15分钟或30分钟,你实际上会停止工作以保存已经取得的进展。而运行这些集群非常昂贵,你不想丢失数十万美元的进度。因此,它们会花一分钟的时间,进行所谓的检查点操作,将作业的当前状态写回存储,而在检查点操作期间,你的功耗基本上会从百分之百降至大约10%,然后在保存完成后又会迅速回升。
因此,本地市场上的负载波动会导致电压尖峰或电压下降。电压下降是导致我们过去经常看到的断电的原因,当人们打开空调时就会发生。我们需要考虑的是,如何确保我的AI安装在人们在检查点操作或打开空调时不会导致断电。
这就是我们需要深思熟虑的事情,我们要如何确保我们不会出错?与英伟达工程师交谈,他们也在解决这个问题,并已为下一代找到了解决方案。因此,我们需要考虑的一切都包括:那里是否有足够的电力?电力的来源是什么?电力的清洁程度如何?我们如何确保我们在该地区投资太阳能等事项,以确保我们不仅仅是从电网获取电力,还要考虑我们使用电力时会如何影响周围的消费者?
**Tracy (28:29):**我想问你更多关于NVIDIA正在做什么的问题,但就这一点而言,评估数据中心质量或性能的最重要指标是什么?是像没有停电的天数或不间断电源供应这样的指标,还是像功耗效率之类的效率指标?如果我要为一堆数据中心提供服务,我想选择一个好的,我应该寻找什么?
**Brian (28:53):**所以现在,市场相当稀缺。所以现在如果…
**Tracy (28:57):**我没有很多选择,你进来,好吧,想象我是地球上最大的客户,我可以进入任何地方。我应该寻找什么?
**Brian (29:07):**第一件事是回到电力部分。电网稳定吗?供电足够吗?该地区是否有多余的可再生能源发电,而这些能源无法传送到下游消费者?我们在美国建造的许多可再生能源位于不一定有消费者的地方。因此,您将这些数据中心设置在您有这种多余供应的地方。因此,第一部分是电力供应有多好,如果我现在拿走它,周围的人会有多生气?然后您可以从中解决所有其他问题,以您设计的方式。如果您正在建造一个全新的项目,那么可以考虑我要安装什么类型的UPS系统?它们能够处理负载波动吗?我如何考虑我的冷却解决方案?
液冷技术已经出现了很大的转变,对吧?从 P OE 的角度来看,液冷并不是电力利用减少了 30 到 40%。人们认为实际上更接近 60 到 70%。原因在于现在不仅是数据中心的效率,而且如果不用空气冷却,服务器内部的风扇也不需要运行。对于这些密集的人工智能安装来说,风扇消耗了大量能源。所以我们现在构建的一切都是液冷和空气冷却的结合,而液冷部分解决了PUE问题。我们所做的一切都是在努力考虑,我们可以为运行关键的IT操作使用多少功率,而不是用来冷却环境,确保环境从弹性角度正确运行。在过去的12个月里在这方面已经取得了重大进展。
**Tracy (31:06):**共享机房是否比电网可靠性更重要?比如,如果我是埃隆·马斯克,在德克萨斯州建造某种新的人工智能项目,我是不是只能在德克萨斯州找到一个数据中心?或者我有多大的灵活性可以选择离我更远的地方?
**Brian (31:25):**很好的问题。对于不同的用例,在不同的时间,答案是不同的。现在我们正处于这种急于训练的阶段,无论是开源还是专有的基础模型,世界上最大、最有价值的公司都在进行。他们大多担心的是连续计算能力的获取。我可以在一个地点获得多少计算能力,以便所有连接在一起,这样我就可以比其他人更快?
但当模型训练好后,他们希望计算资源能够在他们的客户群体中本地化,对吧?他们如何将它从无人之境带到大都市市场中提供服务。随着用例变得更加精炼,并且变得更加实时,就像你在输入内容时在Gmail账户中得到的对冲建议类型,它会变得越来越好,这是某个AI模型在预测你接下来想说的话。
他们希望确保以人类速度交付。所以人类速度是一个延迟考虑因素,当你在引用那些GPU并将计算资源本地化给使用它的人时。所以大约四个月前,我们看到客户最终开始关注他们服务用例的延迟问题。所以最初训练人员并不真的在乎它在哪里,便宜的电力,可靠的电网,他们只需要它是连续的,并且需要快速。然后在未来,当他们的应用程序取得成功时,他们更担心计算资源在他们的客户那里。
**Joe (32:52):**在数据中心集群方面,哪些领域将成为下一个北弗吉尼亚?
**Brian (32:59):**我认为我们已经在亚特兰大看到了,乔治亚已经暂停或试图暂停一些关于此的税收激励措施。他们希望确保他们进行电网研究。我认为我们可能会在其他一些热点地区看到这种情况。你看到AWS在俄勒冈州,他们试图找到创造性的替代方式来为他们的数据中心提供非电网发电的能源,以减轻一些担忧。但我认为市场必须解决这个问题。你开始看到一些围绕核能发电和数据中心级别的小型反应堆的初创公司。人们正在为未来五到十年进行深思熟虑。
**Tracy (33:42):**你对某些地区正在建设的电力类型有影响吗?你能告诉某个公用事业公司,我们在这里,我们需要能源,但我们希望它以特定形式到来吗?
**Brian (33:57):**可以,但你必须明白,这些投资周期和物理建设周期比我们的客户需要基础设施的速度要长得多。所以你可能会去一个市场,说:“嘿,我们接下来10年会在这里。我们希望你安装X、Y、Z,可再生能源”,他们乐意这样做。只是在那被建设的过程中,你必须找到一个中期解决方案。
**Joe (34:18):**我要问一个问题。
所以有一个新闻报道,也许你不会具体评论这个新闻故事,关于CoreWeave提出10亿美元收购一家名为Core Scientific的比特币矿工公司。据我在新闻中读到的内容,这个提议被拒绝了。撇开这笔交易,过去有很多加密货币挖矿,然后以太坊从工作量证明转向权益证明,所有这些基本上一夜之间消失了。仍然有比特币矿工,但我从来没有觉得这是一个很好的生意,但无论如何。
比特币矿工是否有潜在价值,因为他们——我知道比特币挖矿芯片,实际的ASIC只能用于比特币挖矿——但是,通过他们对电力、空间等的获取,他们建立的挖矿的一般物理结构中有相当多的潜在价值吗?
**Brian(35:16):**所以我根本不打算回答你的问题,我要离题了。
**Joe(35:20):**好的,没问题。
**Brian(35:20):**所以我认为当我考虑到CoreWeave及我们的使命时,我们的目标是在各个市场中找到创造性的解决方案来解决问题。这些各种市场可能会对我们和我们的客户实现目标造成阻碍。所以如果电力对我们以及电力供应和变电站和变电站变压器是一个问题…
**Joe(35:43):**比特币矿工肯定可以获得电力。
**Brian(35:46):**没错。
**Joe(35:47):**我只是在陈述事实。
**Brian(35:48):**你可以继续。
所以当我们努力解决这些问题时,我们将去一些其他人可能没有想到的地方,我们将进行尽职调查,我将亲自去现场走一遍,看看,好的,我们能做到吗?然后我们将请我们的工程合作伙伴帮助我们设计改装,并且我们将与我们认为有能力为我们提供价值的公司达成交易
**Tracy(36:18):**由于我们正在关注新闻。这个新闻已经在新闻中出现了一段时间,所以这并不算,但是新的NVIDIA芯片,GB200,对CoreWeave会有什么影响,你希望什么时候能获得它们?
**Brian(36:33):**他们会做什么?对我们来说,更重要的是他们将为我们的客户做些什么。这是一个很好的问题。他们将在AI方面开启许多培训和推理用例,我认为我们的客户一直被现有一代所限制,现在你可以将72个这些GPU连接在一起,几乎像一个单元一样工作。以前只限制在八个。他们有一个更大的所谓的帧缓冲区,这是可用于矩阵运算的内存量。
所以我认为我们将看到很多新的用例出现,但我认为它也远远超出了AI,对于像科学计算这样的事情将会更有用。让我真正兴奋的一件事是计算流体力学,我特别考虑到了2026年F1新规则下的用途。我对这个新平台感到兴奋。我认为一年半后,人们将会用它做一些与今天任何人的预期不同的事情。对我来说,这种变化的速度真的很酷。
**Tracy(37:50):**等等,对不起。我讨厌运动。F1 2026是什么意思?
**Joe(37:54):**并解释一下NVIDIA是如何参与其中的…
**Brian(37:55):**这正是我要问的。所以F1平台对计算类型和计算量有非常严格的限制,用于汽车空气动力学测试。你可以在风洞中进行实际测试,也可以通过CFD分析来进行。Grace Blackwell和Grace Hopper架构与GPU配对的Grace Super芯片在CFD工作负载方面非常出色,对于CFD工作负载非常适用。
**乔(38:24):**而CFC代表的是,哦,计算流体动力学
**布莱恩(38:27):**而F1现有计划中的规定是他们只能使用CPU。对此有非常具体的限制。有很多关于2026年车型可能会改变的讨论,对我来说这很酷,我很期待可能会支持这一点。
**乔(38:46):**听起来很有趣。我想再回到实际上融资的问题,因为我猜有两个问题。所以你会借钱的逻辑,我猜用于芯片的收购,而芯片是一种抵押,但我明白它们实际上并不是以芯片为后盾的贷款。
你看到你的客户更多地采用债务融资而不是股权融资吗?我的意思是,有一整代软件公司来自ZIRP时代,他们只有股权,从来没有任何债务,他们从来没有真正需要考虑他们的计算成本,或者他们考虑过,但不多。你认为他们会增加自己对债务而不是股权的使用来进行自己的融资吗?我们在节目中经常讨论的另一个话题是私人信贷,是否会出现一个专门从事这方面的贷款人生态系统?
**布莱恩(39:46):**对于第一个问题,我不认为风险投资支持的人工智能实验室初创公司会在这种环境下承担债务,主要是因为他们没有抵押品来支持。如果他们购买云服务来运行基础设施,你可能会看到一些公司开始购买自己的基础设施并自行操作,但在规模上这是一项艰巨的任务。云存在的原因是它们在很多复杂性上进行了抽象。
第二个问题是,是否会建立一个私人信贷部门来做这件事?我认为更多的是你会看到公共放贷人将其扩展到私人信贷领域,因为机会在那里。我将给你一个我CEO经常说的党派立场答案,那就是在考虑为我们的业务融资时,对我们来说最重要的是我们的资本成本。我们总是会做能为我们提供最低资本成本的事情,我们与之合作的放贷人,包括对我们非常好的Blackstone,他们在私人信贷方面的扩展,因为我们被资本成本的担忧所拖累,当我们走向公共市场时,我期望他们也会参与进来。所以我认为这是他们一直在公共市场做的业务的延续,只是在这个资本密集型业务中延伸。
**特蕾西(41:00):**等等,我猜你不能透露具体细节,但我的印象是对于这类贷款,利率通常比基本银行贷款或发行公司债券要高。
**布莱恩(41:15):**我肯定会说我们的资本成本低于一些公司发行的债券,但肯定比如果我们是公共实体时要高,但
**特蕾西(41:27):**具体来说是关于GPU抵押贷款。我知道你一直说这不是真正的GPU抵押贷款,但把它称为应收账款融资似乎是一个艰难的斗争。
**Brian (41:38):**那样听起来好多了。
**Tracy (41:39):**我知道,我知道。但就这一点而言,好吧,有抵押品,所以也许这会降低整体借贷利率,但另一方面,这是一种新事物,新结构。这与更传统类型的融资相比如何?
**Brian (41:54):**所以我们做的每个信贷设施,资本成本都在下降,这是因为执行风险和持续关注风险在降低。当我们刚开始做这个的时候,人们说,你们疯了。你们没有执行的历史。随着我们的进行,现在每个承销这些贷款的人都明白,好的,这是会发生什么,这是它的表现如何,这是我们应该从客户那里期待什么,这是我们应该从应收账款那里期待什么。他们变得更加放心,愿意以更具侵略性的利率来做。因此,与之相关的风险溢价随着时间的推移只是在减少。明白了。
**Joe (42:27):**我只有一个最后的问题。我之前稍微提到过,但好吧,我们知道电力是稀缺的。我们知道英伟达芯片的数量并不是无限的,等等。对于其他东西来说,这些都是相当稀缺的。我们之前曾经谈论过一些关于一般电气设备零部件的情况,当然也有很多关于劳动力短缺的讨论。你在这方面看到了什么,简单设备和新建筑的基本构件,以及获取它们有多困难,相对于比如说,如果你在2017年开始做这个,我想很多东西当时更加丰富。
**Brian (43:05):**所以今天它们并不比过去更少。这些电气设备的交货时间一直都是这样。问题在于以前可以随时购买现成的设备,对吧?数据中心市场中曾经有库存,但现在基本上已经没有了。今天我看到的交易都是有七个人在竞标同一笔交易,他们都试图将其卖给相似的客户。
所以市场变得非常紧张。现在你看着它,说,好吧,我唯一的选择就是新建。你看看数据中心内部的交货时间并没有真正改变多少。变电站变压器需要多年才能交货,部分原因是它们在制造后需要一年的时间来固化,这是无法避免的,也无法加快这个过程。
**Joe (43:52):**这是什么意思?它们需要一年的时间来固化。
**Brian (43:53):**当变压器建造完成时,它承受了如此多的功率,无论过程是什么,它都必须静置一年并在硬化后才能承受电力负荷。所以即使你说,“嘿,我今年要再建造10个这样的设备”,你仍需要等一年才能使用它们。
从制造的角度来看,这些是你无法绕过的事情,供应链需要时间来赶上。但我每天在这些项目中解决的问题甚至不是关于变电站变压器。而是关于16周前有人在订购设备时漏掉的小部件。现在你必须四处奔波,打电话请求全国各地的人,“嘿,谁有这个零件?我明天就需要,因为我有50,000个GPU因为这一个小问题而被阻塞了。”所以其中很多问题是物流和人员协调,实时解决愚蠢的问题。
**乔(44:42):**布莱恩·文图罗,非常感谢你参加Odd Lots。太棒了。
**布莱恩(44:46):**谢谢你邀请我。
**乔(45:00):**特雷西。我真的很高兴我们进行了那次对话,因为其中涉及了一些关于数据中心、人工智能和电力消耗等大局观念的想法,我们当然也谈到了一些有趣的内容。比如,就像这个关于北弗吉尼亚地区的概念,需要寻找这些国家中有充足电力资源的地方,基本上当地没有人会因为你使用电力而感到不满。
**特雷西(45:31):**是的,没有人会拿着草叉出来。目前在这些对话中引起我注意的一点是这种军备竞赛的方面,以及对于很多公司来说,建设人工智能是多么迫切。然后似乎存在着立即需要规模、计算和能源的需求,与实际建设这些设施的漫长时间线之间存在不匹配。布莱恩提到变电站变压器需要一年时间来固化,这一点让我很吃惊。
**乔(46:04):**我之前不知道这一点。
特雷西(46:06):
我也不知道,但这是一个很好的例子。
**乔(46:08):**非常有趣。当然,现在我们必须讨论如何建造一个变电站变压器?
**特雷西(46:14):**如何固化一个变电站变压器?
**乔(46:16):**完全正确。我的意思是,也许这对电气工程师来说根本不感兴趣。但对我来说,我没有意识到有这样一个长达一年的固化过程。我觉得还有一些其他事情,现在我想更多地谈谈。所以我感兴趣,我的意思是CoreWeave是一家英伟达公司。它不是英伟达公司所有,但在许多方面与之紧密联系。那么,其他芯片制造商,无论是英特尔还是其他软件环境制造商,无论是meta和PyTorch对抗Cuda还是其他什么,要做到这一点有多困难。这是一个非常有趣的问题。对我来说,我们必须更多地了解英伟达在这个行业中真正拥有多少份额。
**特蕾西(47:06):**这似乎是一个非常重要的问题。我还在想,我知道布莱恩强调过这一点,其他CoreWeave高管以前也强调过这一点,但这种超大规模计算可能从一个劣势点开始,因为他们必须为这种新的人工智能技术改造所有这些旧基础设施。完全正确,我能理解。但另一方面,这些公司是非常令人印象深刻的公司,他们明确试图在这个业务中与Core Weave竞争,他们不会停滞不前。因此,我想有一个问题,他们取得了多少进展,或者这种进展实际上发生得有多快。
**乔(47:49):**当出现新模式或其他东西时,大公司总会遇到一些挑战,但这些公司拥有整个世界的所有资金,而且正如布莱恩所说的其中一件事是,如果其中一家公司要这样做,他们将不得不去购买市场的大部分份额,再次强调,他们拥有整个世界的所有资金。因此,从理论上讲,无论是大公司和改造云端还是建立新云端,或者像谷歌这样的很多公司,即使它们目前主要在内部使用他们的TPU,从理论上看,似乎存在着机会,尤其是像英伟达这样的公司获得了如此之高的估值。
**Tracy (48:34):**哦,是的,你提到了高企业估值。这也是我在融资方面注意到的一点。所以他们做的债务融资交易,我不会称之为应收账款,因为没有人
**Joe (48:48):**GPU支持的贷款。
**Tracy (48:49):**是的,当我们开始谈论应收账款时,没有人会感兴趣,但GPU支持的贷款,这个想法,好吧,这是一个新的结构,但你做得越多,这种特定资本的成本就会下降。市场对此越来越放心。我是说,我们可以讨论这种新型不熟悉风险是否定价正确,但看起来这可能是为这个业务所需的大量资本开辟的一条新途径。
**Joe (49:17):**首先,想到这样一个想法是有趣的,我认为如果你需要大规模的AI计算,你不只是可以打电话给CoreWeave并得到它,你实际上必须证明你将成为一个好客户。因此,必须拥有可能是可持续的、具有资产负债表容量的东西。所以即使软件、最终用户本身并没有筹集债务,听起来他们必须有大量的股本前期投入,以便被视为CoreWeave这样的公司一个可持续、可靠的客户。我还觉得在电力方面,显然我们一直在谈论对电力的原始需求,但他说的这个想法,我之前没有听任何人说过,即建模运行每隔,你说是30分钟,必须保存。哦,是的。所以有时会出现很大的变化,这就产生了自己特定的问题。这不仅仅是电力的稳态流动和解决这个问题。这可能是另一个遗留数据中心或云公司的领域,也许,我猜他们只是,需求更加稳定,因此对他们来说可能是一种新奇。
**Tracy (50:36):**只是在更多地考虑融资,我确实有点想知道这其中有多少是建立在人工智能之上的人工智能,再加上人工智能,直到泡沫破裂或者资金突然从这些初创公司中撤出,那对于CoreWeave的融资意味着什么?对于根据客户所采用的GPU贷款的BlackRock又意味着什么?这些客户可能不再存在了?我不知道。
**Joe (51:05):**顺便问一下,你有没有看过Riot Blockchain的图表?
**Tracy (51:11):**有一段时间没有看了。
**Joe (51:12):**是的。嗯,我是说,他们仍然是一个矿工,但我们现在正处于这场相当大的加密货币牛市中。我是说,我猜这有点酷,那支股票表现糟糕,所以很有趣去思考,显然似乎没有人为他们出价。但很有趣去思考,好吧,这些芯片对于人工智能是无用的,因为它们不适用于那个领域,但它们确实有容量,而且它们已经有电力协议。所以你会想知道一些比特币挖矿公司,市场对他们并不感兴趣,显然,即使在这场加密货币牛市中,
Tracy (51:53):|也许他们应该重新成为一家诊断公司。这是他们以前的身份,对吧?我想是的。我想他们是那些改变了名字,然后包括区块链的公司之一,然后他们的股价飙升,现在又回落了。
**乔(52:07):**嗯,Riot Platforms一直存在。好的,现在我很好奇。是的,这是一家比特币挖矿公司,但这家公司自2003年以来就存在,所以很明显他们曾经从事其他业务。我不知道那是什么。
**特蕾西(52:24):**是的,我在终端上查到了。上面写着Riot Blockchain,前身是Bios,已经放弃了药物诊断设备业务,转向数字货币交易。
**乔(52:34):**嗯,就是这样。所以如果你有一些计算能力或其他什么东西,我不知道他们以前在做什么,但也许考虑一下这些矿工的一些期权价值可能会很有趣。除了比特币挖矿操作之外,还有其他基础设施吗?
**特蕾西(52:50):**也许我们应该投标。让我们做吧。我们可以众筹,开创自己的业务。好的,也许我们应该到此为止。**乔(53:00):**就到此为止吧。