如何为LLMs打造终极半导体 - 彭博社
Joe Weisenthal, Tracy Alloway
奥地利维拉赫的英飞凌科技股份有限公司新芯片工厂内制造过程中的一块直径300毫米的硅晶圆,拍摄于2021年9月16日星期四。
摄影师:Akos Stiller/Bloomberg 谈到人工智能芯片,显然自动想到的名字是英伟达。该公司通过销售用于大型语言模型等热门人工智能应用的半导体赚得盆满钵满,股票投资者也对此给予了丰厚的回报。当然,英伟达的GPU不仅仅用于人工智能。它们还用于视频游戏、图形、加密货币挖矿等。但一家名为MatX的新创企业旨在打造专门用于LLM的终极芯片。联合创始人Reiner Pope和Mike Gunter在Alphabet工作了多年,Alphabet拥有自己的内部半导体业务,现在他们决定自立门户,从零开始创建一家新的芯片公司。我们谈论了他们是如何开展工作的,实际上设计和制造芯片需要什么,以及如何让客户从行业领导者那里转投他们的阵营。以下内容经过轻微编辑以提高清晰度。
播客中的关键见解:芯片设计过程实际上是如何工作的?— 5:33设计新芯片时的目标是什么?— 10:56芯片可以美观吗?— 12:10谷歌的芯片设计方法是什么?— 13:48芯片公司如何满足最终客户的需求?— 20:24MatX相信自己能击败英伟达的原因— 22:01为什么英伟达无法创建专门的LLM芯片?— 23:23MatX为什么押注于LLM?— 26:28LLM路径存在哪些风险?— 31:02半导体初创企业的业务模式是什么样的?— 36:01人工智能客户目前在寻找什么?— 39:48为什么Sam Altman谈论筹集数万亿美元?— 43:03
---
**乔(00:20):**大家好,欢迎收听另一期《Odd Lots》播客节目。我是乔·韦斯坦索尔。
**特蕾西(00:25):**我是特蕾西·阿洛维。
**乔(00:26):**特蕾西,我知道一些关于人工智能的事情。我不是很懂,但我知道一些。
**特蕾西(00:32):**如何登录ChatGPT。
**乔(00:33):**不,我擅长这个。我擅长登录ChatGPT和克劳德,并且我相当擅长提问。不,实际上我知道一些关于人工智能业务的事情。我知道英伟达正在赚大钱,股价飙升,其他公司也想分一杯羹。
**特蕾西(00:54):**是的,是的。这是一个好事情。
**乔(00:57):**这就像一个基本的简单事实,当人们想到AI芯片时,脑海中实际上只会浮现一个公司。我知道其他公司也参与其中。AMD有相关产品。英特尔显然也想参与,还有其他公司等等。但显然有一家公司正在赚取这一大笔现金。我不知道现在是否还是,但曾经有一段时间它是世界上最大的公司。现在稍微有所回落。嗯,我想说两件事。一是其他公司希望分一杯羹,二是那些从事构建AI模型业务的公司希望找到一种方式获得更便宜、更高效、更节能的芯片,这样他们就不必总是支付英伟达的“税款”了。
**Tracy (01:40):**你想知道我对人工智能和半导体的了解吗?
**Joe (01:44):**就让我们开始吧。
**Tracy (01:45):**好的。我知道的一件事是,每当谈到英伟达时,总会提到一个词,那就是护城河。
**Joe (01:54):**哦,是的。
**Tracy (01:56):**护城河,没错。所以你要么在谈论中世纪城堡,要么在谈论半导体制造。每当听到护城河这个词时,人们总会说制造芯片很昂贵。你需要大量资金用于研发和建立晶圆厂,还需要大量专业人才来建造。此外,还有网络效应。因此,像英伟达这样的公司在业务周围有着巨大的护城河。当然,问题是,回到中世纪城堡的类比,这是否是攻不破的。
**Joe (02:28):**没错。事实上,半导体似乎是一个接一个的护城河,有ASML的护城河,还有台积电的护城河,然后是英伟达的护城河。是的,就像有一系列护城河,如果有人能克服这些护城河,或者找到一种方法搭建桥梁跨越其中一个护城河,进入这座谚语中的城堡,那将是非常有利可图的。我们知道许多人都在尝试进入这些护城河,但这是极其昂贵和资本密集的,困难重重,而且很少有人知道如何做这些事情。因此,这些护城河是否能被克服是一个问题,但再次,许多企业希望在这个领域看到更强有力的竞争,以免它们成为一种税收。
**Tracy (03:15):**有一件事,我不知道,我认为我们从未完全专注于这个问题,但我真的不太理解芯片的不同设计。我知道一些芯片,特别是Nvidia,据说在人工智能方面表现更好。它们更擅长同时运行许多小计算。我知道有一些基本芯片用于冰箱、汽车或其他设备,但我真的不知道专门设计用于运行大型语言模型的芯片与标准基本芯片之间的区别。
**Joe (03:52):**我对芯片设计一无所知。我只是想象有人使用CAD软件在一个东西上刻画一些小线条,绘制某种电路或放置晶体管。
**Tracy (04:05):**现在我想起来了,一个芯片设计游戏会很有趣,你可以在方块上画一些小东西。好了,无论如何,嗯,
**Joe (04:13):**我们将了解芯片设计的工作原理。我们将了解什么使一款芯片特别适合用于训练和运行这些人工智能模型。我必须说,我真的相信我们邀请了两位完美的嘉宾,因为他们在这个领域都是资深人士,他们都积极尝试打破某些壁垒,进入这个领域,并为这个行业带来竞争。我们将与Reiner Pope(MadX的联合创始人兼首席执行官)以及Mike Gunter(MedX的联合创始人兼首席技术官)进行对话。这是一家试图专门为大型语言模型构建芯片的新公司。他们两人在这个领域有丰富的经验。我们将亲自动手,了解如何为所有这些东西构建硬件,以及是什么让它脱颖而出,以及这是否是一个可以取胜的游戏。Reiner和Mike,非常感谢你们出席Odd Lots节目。
**Reiner (05:11):**谢谢。很高兴来到这里。很荣幸能在这里。
**Joe (05:15):**那么你为什么不告诉我们芯片设计师是做什么的呢?我知道我脑海中对于一个在大屏幕上使用CAD软件来弄清楚在硅片上会被刻蚀的东西有一个完全夸张的看法,这显然是不正确的。芯片设计的工作是什么?
**Reiner (05:33):**也许最好通过芯片开发的故事来讲述从项目开始到结束的过程是什么?
所以这可能有各种不同的方式,但有很多共同点。通常情况下,一个芯片设计团队,在低端可能有30人,高端可能有成千上万人。项目通常从概念到实际交付给客户的时间大约在三到五年之间。在这段时间里,我们在生命周期中看到的是,我们通常会从一个小团队的架构师开始。如果你想象设计一座房子,架构师团队,他们是决定这里放什么房间,有多少卧室,有多少浴室,它们之间的流动是什么,人们如何穿过走廊等等的人。芯片本身的核心设计 - 高层次上我们有哪些组件。
然后在这个初步的探索之后,这就转移到了微架构师。这些人是设计单个房间的人。单个房间中放入哪些组件?所以在那一点上,到目前为止我们所做的一切都是设计阶段的事情。这是在文件、电子表格中完成的,是一种口头和人类交流形式。但除此之外,当它开始以更有意义的方式接触计算机时,这时微架构师将交给逻辑设计师。他们是实际编写代码的人。所以即使你认为芯片是一个非常物理的东西,有线路和门等等,我们将这些信息传输给计算机的方式实际上是编写代码。
我们编写Verilog来表达芯片的设计。这就是逻辑设计在做的事情。这是一个漫长的过程,构建所有不同的矩阵乘法器、存储器、连接到外部世界的电路等等。然后所有这些的输出就是这个Verilog软件代码,然后由计算机编译成一组门,这些门是逻辑门、或门等,然后将它们连接在一起的导线。这就是网表。这个文件。然后还有几个阶段要来。这个文件被交给物理设计师,他们再次使用CAD工具来将这种逻辑描述转换。
**Joe (07:40):**我是对的。所以有人在使用CAD工具。
**Reiner (07:43):**绝对的,有CAD工具,但这只是工作的一部分。因此,物理设计师将逻辑描述转换为物理布局。那么这些门应该放在哪里?现在芯片上有2000亿个逻辑门。所以人类不可能手动放置所有这些。因此在这里有大量的软件辅助。但人类所做的是通过这个过程提供监督,并说,我以前做过很多次这样的事情。这种布局看起来有点不对劲。它不符合我的启发式,所以我可能在这里做得更好。这就是物理设计师,他们的工作输出实际上最终会得到一个多边形。基本上是一个图像,表示这是一个将被刻在硅片上的东西。因此,该文件最终是一个巨大的、非常大的图像,以某种形式呈现,上面有一堆多边形。
它被移交给像台积电这样的制造公司。他们可能最初花费四到五个月来创建一个掩模集。所以这些模板或者模具将被用来冲压出许多许多芯片的副本,然后冲压出许多芯片的副本。你拿到一个芯片,这通常是在你开始项目大约两三年后。你得到芯片后,现在你有一个启动团队,他们将这个芯片放入一个整个电路板中,连接到电源和电力,并开始测试。
然后再过六到十二个月,甚至更长的时间,你实际上可以将这交给客户。在这个流程中可能还有一两件其他事情,但非常重要的也需要提到的是,由于整个过程需要很长时间,特别是制造过程,我们还有非常庞大的验证团队。这些人在我们实际将其发送到制造和支付2000万到3000万美元的制造费用之前,会做大量的测试,这是基于软件的测试。所以编写测试的方式与软件工程师可能会做的一样,以确保功能实际上按预期工作。
**迈克(09:39):**为了强调与普通软件的比较,Reiner提到,我们在写代码,但这是超级难模式。所以如果你有一个通过网站部署的软件,你可以在10分钟内修复一个错误,成本几乎为零。而在我们的情况下,我们有一个庞大的团队的原因是确保我们所做的是正确的,因为让错误通过可能会导致四个月和3000万美元的损失。
同样,有软件,但只有很小一部分软件非常关键,你希望代码运行尽可能快。但从某种意义上说,你在硬件中编写的每一行代码都会影响产品的整体性能,因为每一行代码最终都会体现在硅片中,每一行代码都会影响最终的性能。所以这有点像编码,但是在部分模式下。
**特蕾西(10:34):**所以我直觉地理解编写正确的软件的重要性,但为什么芯片或晶圆上的放置位置很重要呢?你是在尝试让它更高效吗?你是在尝试减少上升时间,或者为什么放置小零件的位置很重要,用科学术语来说?
**迈克(10:56):**是的,你说得对,减少上升时间是一个重大问题。基本上,问题在于芯片在一个非常抽象的层面上是由晶体管和导线组成的,或者在一个相对具体的层面上,实际上是由晶体管和导线组成的,而放置位置对导线的长度有着巨大的影响,这对芯片的性能以及对你所生产的芯片质量的影响有着巨大的影响。随着时间的推移,导线并没有像晶体管那样在缩小。因此,正确布线,通常意味着正确放置位置,随着时间的推移变得越来越重要。
**特蕾西(11:57):**芯片可以很美吗?我知道代码可以优雅,有些人会说某些代码很美,但你有没有看过半导体,然后想,哇,这真的很好地组合在一起了
**Reiner (12:10):**对我来说?我的意思是,我认为绝对是的。这就是为什么我在这个领域工作的原因,我真的很着迷于事物的设计。但对我来说,芯片美丽的意思是它恰好做到了它被设计来做的事情,不多也不少。我是说,显然少了会有点失望,但如果它做得更多,你会觉得,也许我设计它的目的有点错了,或者类似这样的情况。
**Joe (12:31):**我认为这是一个很好的过渡,进入到你的业务具体细节。我们都知道,这么多人工智能是由英伟达的GPU提供动力的,但英伟达的GPU长期以来被用于许多与大型语言模型或人们今天在2024年感到兴奋的特定人工智能应用无关的事情。
所以有一段时间,视频游戏显然是几十年来的主要用途,然后有一段时间人们非常兴奋地开始将它们用于以太坊挖矿,现在每个人都对它们在人工智能大型语言模型和一些人们目前感到兴奋的其他生成式人工智能应用中的使用感到兴奋。
为什么不告诉我们一下MatX背后的想法,但具体来说,当你们在Alphabet或Google时,你们在做什么,我相信它有自己的芯片,叫做TPU。在Google的项目是什么?为什么Google认为有必要或者有好的商业理由开始为内部目的构建他们自己的芯片?然后为什么你觉得有必要离开,为了专门为LLM构建你现在正在构建的东西?
**迈克(13:48):**是的,所以谷歌当时看到的情况是,这是十多年前的事情了,他们发现人工智能的使用正在增加,当时LLM还不是一种事物,他们担心他们将不得不花费多少钱在传统的,那时可能是GPU。因此,他们建造了一种非常专门的芯片来进行神经网络计算,这些芯片专门用于矩阵乘法。所以他们加入了一个叫做脉动阵列的结构,他们绝对没有发明它,它从七十年代就存在了。这种结构在进行矩阵乘法方面特别擅长。
现在,之后,英伟达也在他们的芯片中加入了类似的结构,最初的谷歌TPU只专注于推理,然后他们随后制造了可以用于训练和推理的芯片。我想现在是一个好时机,所以我在谷歌做的最后一件事情是,我在TPU团队,Reiner在大型语言模型团队,最好让他继续讲述故事。
**莱纳(15:04):**是的,我是说,我们看到的情况是,这是我们个人看到的,但谷歌也更普遍地看到了,大型语言模型是一种事物。在GPT-3和ChatGPT问世之间有这样一个时期,GPT-3是在2020年问世的。因此,那些非常了解这个领域的人认识到了它的重要性,或者至少在那时在某种程度上认识到了它的重要性。所以每个人都想要创建自己的大型语言模型,比GPT-3更好。所以我当时在大型语言模型团队,我们帮助训练了Google Palm,我们使用了成千上万的TPU进行训练。我们说的一件事是,看,部署这个需要多少成本?
在谷歌搜索中,有相当多的搜索查询。我认为公众估计每秒大约有十万个查询。如果你计算每个查询的成本,如果你想在大型语言模型上运行,那将会更加昂贵。而且如果我想训练一个比我目前模型大10倍或100倍的模型,突然间这些模型的成本就从百万美元或十万美元训练成为数千万美元和数亿美元。
所以总体目标是我们是否可以通过任何可能的方式使其更便宜?当然有算法方法,算法和研究方面有很多机会,但另一个真正大的杠杆是制造更好的硬件。所以我们正在研究的一件事情是尝试让谷歌的TPU更适用于大型语言模型。
实际上导致我们离开谷歌去创办MatX的原因是,我们看到我们相信如果你只想专注于大型语言模型,就有一些机会可以使芯片显著改进。因此,在GPT-3之前设计的芯片,尤其是在ChatGPT之前设计的芯片,试图在小型模型上做得非常好,同时在大型模型上也做得非常好。因此,你会发现这些芯片的电路中,有一些电路是为小型模型所需的。有一些电路是为大型模型所需的,也可能是为嵌入式查找所需的。有三四种不同的工作负载,所有这些都占据了你硅片上的一些空间。因此,如果你真的想充分利用这些空间,你应该专注于你最关心的事情,并希望那里有一个巨大的市场。所以我们决定要做的游戏,以及我们看到其他一些人也决定要做的,就是真正尝试专注于似乎将成为一个百亿美元或万亿美元行业的那一个工作负载。
**乔(17:30):**我知道在谈论科技时总是有一种陈词滥调,他们会说,哦,谷歌和Facebook,他们可以轻而易举地建立这个,然后摧毁你的小创业公司。他们有无限的资金,但实际上在现实世界中并没有像Twitter上的人们期望的那样经常发生。
但你能否给出一些关于为什么像谷歌这样的公司不会说,“哦,这是一个价值一千亿美元的市场,英伟达市值三万五千亿美元或3万亿美元。让我们建立我们自己的LLM专用芯片。”的商业和组织激励的感觉呢?为什么这些大型超大规模公司不会这样做,尽管它们显然拥有所有的人才和资金呢?
**迈克(18:13):**因此,谷歌的TPU主要是为了服务他们的内部客户而构建的,谷歌的收入大部分来自谷歌搜索,尤其是来自谷歌搜索广告,谷歌搜索广告是TPU的客户。相对难以说服人的是,我们正在赚取数千亿美元的收入,我们将制造一款并不真正支持这一点的芯片,并且专注于这一点,这在收入市场方面尚未被证明。
而且不仅仅是广告,还有各种其他客户。例如,你可能已经注意到谷歌在识别好照片和执行许多其他任务方面非常擅长,而在许多情况下这些任务都得到了TPU的支持。
**莱纳(19:06):**我认为在所有芯片公司或生产芯片的公司中,我们看到的另一件事是,由于生产芯片非常昂贵,你最终会发现你真的想要将所有资源投入到一个芯片项目中。因此,只是因为认为在使这一件事变得更好方面有巨大的投资回报,而不是分散你的努力,真正你想要在这种可能是巨大的新兴领域,但目前很难说清楚的情况下做的事情。在这种情况下,你可能想要启动一个第二个努力,并且有一个秘密研究小组,看看它的效果。
**乔(19:37):**是的,没错。让莱纳自己去,或者让你们两个去另外一个地方有自己的小办公室会很棒。
**莱纳(19:44):**是的。在组织上,这通常是具有挑战性的,我们在所有公司都看到了这一点。每家芯片公司实际上只有一个主流芯片产品,他们会不断进行迭代,使其变得越来越好。
**特蕾西(19:58):**芯片设计在多大程度上受客户驱动?我的意思是,Google的TPU是为处理Google内部工作负载而开发的,但在其他芯片设计师那里,客户会在多大程度上进行反向查询,要求特定的芯片?或者客户和大型芯片设计师之间的对话实际上是什么样的?
**莱纳(20:24):**是的,这是一个有趣的互动,我希望我的供应商做得好,但我也不想泄露太多我的知识产权。你可以看到这是如何发展的,所以迈克在谈论TPU的开发时,这是在2016年公开宣布的,大约在同一时间,NVIDIA的第一代带有张量核心的GPU也问世了。这是第一款真正专注于矩阵乘法的GPU,Volta一代大约在同一时间推出。其中一些实际上是由于Google意识到“矩阵乘法非常重要,我们需要让它变得更好。”
他们同时自己着手进行研发,但也去找了NVIDIA,说我们不会告诉你太多,但你能不能在矩阵乘法上做得更好?这对NVIDIA来说足够启发他们进行第一代的开发。他们做出了相当不错的尝试。但如果你和NVIDIA的人交谈,他们会说实际上张量核心的第二代,也就是Ampere一代,才是他们真正做到了的地方。所以当需求足够大时,有时你会看到这些客户前来表达他们想要的,但他们可能会试图掩饰他们在要求什么,或者不给你绝对最少的信息来帮助供应商制造他们想要的东西,同时又不泄露太多关于他们的知识产权。
**乔(21:49):**让我们来谈谈MatX。告诉我们你正在设计的产品,以及它在根本上将如何与市场上的产品有所不同,尤其是与英伟达的产品有何不同。
**莱纳(22:01):**我们制造芯片,实际上还有大型语言模型的机架和集群。当你看英伟达的GPU时,你已经谈到了所有这些,最初是游戏背景,然后是以太坊的短暂运动,甚至在人工智能领域,他们正在做大模型的小模型。所以这意味着什么,你可以把它想象成房子的房间或者其他什么东西。他们为每个不同的用例都有一个不同的房间,所以芯片中为所有这些用例都有不同的电路。而根本的赌注是,如果你说,看,我不在乎那些。如果你试图在我身上运行游戏,我会做得很糟糕,或者如果你想在我身上运行卷积网络,我也会做得很糟糕,但是如果你给我一个非常大的矩阵的大模型,我会做得很出色。这就是我们在Maddox做的赌注。所以我们尽可能多地利用我们的硅来使这项工作成功。在使所有这些工作成功方面有很多细节,因为你不仅需要矩阵乘法,还需要所有的内存带宽和通信带宽以及使其实现的实际工程事项。但这就是核心赌注。
**特蕾西(23:05):**为什么英伟达不能做到这一点?英伟达拥有很多资源。正如我们在介绍中讨论的那样,它拥有那个巨大的护城河,已经在生产中的GPU,并且正在研发新产品。但为什么它不能从头开始设计一个专注于LLM的芯片呢?
**迈克(23:23):**对吧?所以你谈到了英伟达的护城河,这个护城河有两个组成部分。一个组成部分是他们构建了最好的硬件,我认为这是拥有一个执行非常出色的庞大团队和做出关于如何为他们的市场提供服务的明智选择的结果。他们还拥有一个巨大的软件护城河,这两个护城河对不同的客户群体都很重要。所以他们有一个巨大的软件护城河。他们有一个基于Cuda的非常广泛、深入的软件生态系统,允许…
**特蕾西(23:59):**哦,是的,我记得这在我们与Core Weave的讨论中提到过。
**迈克(24:03):**是的。这使得那些不太复杂、没有庞大工程预算的客户能够使用这些芯片并且高效地使用英伟达的芯片。护城河的事情不仅在某种意义上阻止其他人进入,它也让你留在里面。因此,只要他们想保持他们的软件护城河,他们的Cuda护城河,他们就必须保持与Cuda的兼容性,与那个软件Cua的兼容性。与Cuda的兼容性需要某些硬件结构。因此,英伟达有大量的线程。他们有一个非常灵活的内存系统。这些东西非常适合灵活地解决各种不同类型的神经网络问题,但从硬件方面来看,所有这些都是有成本的,并且不一定是你想要做出的选择。实际上,如果你专门针对LLM,这些可能不是你想要做出的选择,事实上,不是你想要做出的选择。为了与专门用于LLM的芯片完全竞争,他们将不得不放弃所有这些。而且詹森本人曾表示,我们公司的一个不可妥协的规则是,我们必须与Cuda兼容。
**乔(25:23):**这很有趣。所以对于他们来说,要推出完全不同的东西的挑战在于它会超出家族范围。换句话说,它超出了Cuda家族的范围。
**特蕾西(25:35):**与此同时,你已经有高级PyTorch和Triton在等待中了,我想。
**乔(25:40):**那么为什么不多告诉我们一些关于LLM芯片业务的细节呢,因为有很多问题。比如一个问题是,硅谷有这么多人似乎被通用人工智能的想法所激励,那就是目标是,我们将有超级智能的一天,也许有一天会有数以千计的智商达到数十万,这将使我们所有人看起来都很愚蠢,等等。你的公司是否暗示着,它将是LLM芯片能够实现这一目标的赌注?因为正如你提到的,还有其他算法思想,还有其他扩展智能的想法。你的公司押注的多少是未来通用人工智能或我们所知的通用人工智能的未来将沿着LLM路径发展的想法?
**莱纳(26:28):**我认为LLM路径的两个核心要素之一目前是变压器架构,这是一个模型架构,比之前的东西要好得多。但另一个,实际上有着更悠久的历史,是规模假设。
有一个普遍的观察,十年甚至更久以来已经被广泛认可,那就是如果我正在训练一个神经网络或其他类型的人工智能模型,如果我想提高它的质量,我就要让它变得更大。那么更大意味着什么?更大意味着我必须花更多的计算资源来训练它,更大意味着我有更多的神经元。这在某种程度上类似于人类大脑中的处理能力,尽管这种类比是薄弱的,但如果我让我的模型更大,我就能获得更好的质量。
这是一种简单的定性说法,而且在这些模型中这种说法很久以来都是正确的。所以这样做的好处,或者我们最近看到的事情是,我们看到这种说法被推到了极致。所以大概在 GPT-3 推出的时候,也就是在 2020 年,有一篇论文发表了,名为《缩放定律》。
于是这个定性的观察被量化了,并且说,实际上,我们甚至可以为其拟合一个方程。这给了人们更多的信心。这就是导致人们说,嗯,如果我有一个更好的模型,我可以用人工智能解决更多问题,比以前能解决的更多。所以每次我花费 10 倍的训练时间,我就可以解锁新的用例。这就导致了这种狂热。而值得注意的是,虽然存在着这种递减的回报,但我必须花费 10 倍的计算能力才能获得一些超越这种对数尺度的改进。
我们还没有看到任何停滞的迹象。所以看起来这里仍然存在机会。所以关键的事情是这种缩放假设或者一般的缩放定律导致这些模型增长。然后,我是说,作为一个硬件提供商,你可能会考虑的是,你可能会说,这是我真正想要押注的东西。我想押注模型的增长。而且,我是说现在细节多了一些,但你实际上必须押注的是矩阵站点的增长,这与模型的增长密切相关。
**Tracy (28:38):**好的,再强调一下这一点,如果更多的人工智能是从自我对弈或合成数据等方面学习,而不是从互联网上获取信息,那么芯片的设计是否必须考虑到这一点?这些不同学习方式之间芯片会有什么不同?
**Reiner(28:58):**是的,总的来说,当你在构建芯片时,你必须使其可编程,因为你将制造这个芯片,并且每两年就会推出一个新版本。但人们想要用芯片做的事情可能每个月都会改变一次左右。所以它必须在某种程度上是可编程的。这对任何人推出的所有芯片都是如此。因此,有不同程度的可编程性以及需要适应的变化种类。所以在你输入数据的方式上的变化,也许在芯片的核心部分影响不大。因此,这些种类的变化往往是比较容易适应的。
然后变得有点难以适应的是,如果我实质性地改变了我的模型架构。所以一个小的变化可能是改变层数或者重新排列模型中的一些层,或者也许我使用相同的成分但以某种方式重新排列它们。一个更大的变化可能是说,好吧,我实际上要放弃所有这些成分,使用完全不同的一组基元。而那通常是最后一步,如果你在某个特定的成分上押注很多,那将会真正让你倒霉。
**Mike(30:01):**所以一个潜在的不同的基元集合的例子,它们在其他模型中使用,而在LLMs中没有使用的,我们提到了这些嵌入式东西,它们在推荐和广告模型中使用。Facebook已经谈到了构建专用硬件来支持这类模型的推断。相对强调较少,特别是在矩阵乘法方面,模型架构可能会走向的另一个可能方向是不同的,对于当前LLMs设计而言是不同的且不利的。与其在大约一百层中有非常大的矩阵,不如在较小的矩阵中有一万层,这将需要一种不同的设计才能很好地适应那种模型。所以根据神经网络的现代历史,看起来好的是矩阵会随着时间变得更大。
**乔(31:02):**你在谈论规模定律,所以每个人都在谈论,好吧,计算、功率、能效等等。我从来不知道它们是否属实,但有时你会读到这些故事,比如,山姆·奥特曼想要环游世界,筹集5万亿美元建立自己的半导体工厂,并拥有整个架构。这就是需要的。那数据方面呢?因为这是另一件事。人们谈论数据壁,说只有一个互联网可以爬取。然后,之后,如果你还没有到达一个GI,再次,我知道你正在解决硬件方面的问题,但当你考虑沿着LLM路径前进时,对于风险,你对此有什么看法,嗯,当我们摄取了所有数据后会发生什么?
**莱纳(31:48):**所以有两种方法可以让模型变得更好。一种是通过更多数据进行训练,另一种是制作一个更大的模型。这两种效果相互补充地发挥作用。你可以把它想象成拥有一个更大的大脑,然后进行更多的练习。所以这两者在某种程度上都会有所帮助。总的来说,存在着我们会遇到数据壁的风险。
人们长期以来一直在预测技术训练中的不同种类的壁垒,然后创造力克服了这一点。所以我敢打赌,在这方面还有相当大的发展空间。特雷西提到了自我训练和生成新数据。行业内的氛围是这是一个有前途的方向,但即使你不押注在这上面,扩大模型也是有发展空间的,虽然不那么吸引人,但扩大模型也是有发展空间的。
所以我相信,我认为这是许多人,行业内部人士也认同的观点,就是在我们耗尽易于操作的工程调节手段之前,至少还有几个数量级的提升空间。但当然,这里的一个限制因素是你花费的资金。所以你有一定的预算,我愿意花费,我是说也许山姆·奥特曼可以筹集到5万亿美元。我不认为其他人都能筹集到那么多资金来训练一个模型。
所以如果你有固定的花费预算,你想训练出最好的模型,你想充分利用乘数,你想充分利用你的花费。这意味着从根本上说,你支付的是浮点运算,也就是乘法器的数量。每当我增加模型的大小或增加我拥有的训练数据量时,我就会花费更多的乘法器。所以乘法器转化为智能。如果我有固定的预算,我真正想要最大化的是我的每美元的乘法器数量。
**特蕾西(33:38):**我觉得这很有趣。你可以从理论上探讨很多不同的方向,需要做出很多决策。你是追求规模吗?你如何为不同的数据输入方法定制设计?虽然正如你之前所说,也许这是最容易应对的问题之一。但是你必须考虑到速度和功耗之间的其他权衡,以及区域利用率或我们之前讨论的所有细节和成本效益。你如何平衡所有这些因素,是否有特定的事情你愿意为其他事情做出牺牲?
**迈克(34:22):**所以不同的人可以选择在市场上追求不同的目标。因此,一个目标,你可以说目前英伟达正在取得成功,他们的产品之所以如此受欢迎的原因之一是,正如Reiner所说的那样,芯片可以提供的浮点运算数目。如果所有芯片制造大致相同,那就转化为浮点运算数目,每美元的浮点运算数目。另一个目标也可以是响应一个用户所需的时间。为了得到答案,一种方法是最大化你可以拥有的吞吐量,另一种方法是最小化延迟。所以就像一架747飞机载着一群乘客飞越国家,与SR 1只带着一两个人却在几个小时内到达的区别。
**乔(35:16):**让我们谈谈这个业务本身。所以10年前,一个开始科技初创公司的人,在办公室里找到三四个人,然后写点东西,然后编写代码,也许他们甚至不需要筹集任何资金,当然也不必依赖台湾半导体的晶圆厂是否有产能之类的事情。请为我们详细介绍从零开始建立芯片业务实际上需要什么,无论是成本、时间还是你必须依赖的内容。我们已经谈到了一些设计元素。业务方面的要求是什么,实际上要成功需要什么?
**迈克(36:01):**幸运的是,我们在多个地方提到过这一点。在设计芯片周围有一个庞大的生态系统。因此,有一部分你必须自己完成,还有一部分可以购买。所以像Tracy的零件的放置,以及我们谈到的测试,有一些EDA电子设计自动化公司构建这些工具。同样,有一些只做制造的公司,比如TSMC及其供应商。然后还有许多其他公司。大多数公司不会直接与TSMC打交道,像苹果或英伟达这样的非常复杂的公司会直接与他们接触。但大多数其他公司会通过ASIC供应商。因此,在这个领域最著名的公司是Broadcom和Marvell。然后还有一些较小的公司。接近TSMC的有Alchip和GUC。他们将承担大部分工作,将你的代码实际放置在芯片上。通常外包这项工作是非常明智的,因为这项工作在某种程度上是季节性的。只有当你接近这个为期三年的项目的结尾时,你才准备好进行这种放置。
因此,除非你是一个大公司,否则你一直没有工作。因此,虽然这种生态系统意味着你不必自己雇佣大量的人,但所有这些人都必须得到报酬。因此,你确实需要筹集相当多的资金。实际上,你最终会花费大量资金的另一个重要方面是芯片的某些部分非常特殊,难以设计,并需要多次迭代来测试它们是否有效。连接芯片的高速互连就是一个例子。因此,这些是由另一组公司设计的,设计是困难且相当昂贵的,因为需要进行多次测试。因此,购买这些知识产权是非常昂贵的。因此,当你把知识产权的成本、ASIC供应商的服务成本以及TSMC收取的掩模费用(使用ASML的EUV光刻技术软件)加在一起时,你需要花费数千万美元才能将一款最先进的芯片推向市场,对于一个没有高速I/O的简单芯片和一个较老的节点,这个数字要低得多,但对于一个先进的节点来说,这是一个相当昂贵的过程。
**Tracy (38:46):**你认为你什么时候能够将你的芯片推向市场?
**Reiner (38:49):**一般来说,我们看到大多数公司的这些项目需要四到五年的时间。我们在24年初认真开始这个项目,所以从那时起大约还需要三年时间。
**Joe (39:00):**告诉我们一些关于客户的情况,因为我听说过,我们都在试图找到一些替代Nvidia的方案,无论是为了降低能源成本还是为了降低成本,或者仅仅是为了能够访问芯片,因为并非每个人都能获得芯片。只有少数芯片在生产。但当你与理论客户交谈时,A,你想象中的客户是谁?是世界上的OpenAI吗?是世界上的Meta吗?是我们尚未听说过的实验室吗?只有在有更专注的低成本选择时,他们才能进入这个领域?然后B,他们在询问什么?他们说什么?你知道,我们现在正在使用NVIDIA,但在理想的情况下,我们真的很想要X或Y。
Reiner (39:48):
这是修正过专有名词和其他词汇的转录。我将在最后提供一个变更的项目列表:
所以在世界上有各种可能的客户。我们看待他们的方式或者说你将他们分成几类以及我们选择如何做到这一点的方式是,他们在工作中投入的工程时间与他们投入的计算量之间的比例是多少。所以一般来说,对于一个受过训练的硬件供应商来说,最理想的客户是那些在他们的计算能力上投入了更多资金而不是在工程时间上投入更多资金的公司,因为这样就可以做出一个非常好的折衷,也许我可以多花一点工程时间来让你的硬件工作,但我可以在计算成本上节省很多。所以像OpenAI这样的公司显然是一个很好的选择。
还有很多其他公司。所以那些符合这一标准的公司,他们在计算上花费的比在工程上花费的多很多倍,实际上有一组可能有10、15个大型语言模型实验室,它们并不像OpenAI那样出名,但你可能会想到Character.AI、Cohere以及许多其他类似的公司和Mistral。
所以我们从这些公司那里听到的共同之处,所有这些公司在计算上花费了数亿美元,就是我只想要更好的每美元的FLOPS。这实际上是唯一决定性的因素。这也是他们今天决定选择NVIDIA的产品而不是市场上其他一些产品的主要原因,因为这些产品的每美元FLOPS是你能买到的最好的。但当你给他们一张规格表时,他们首先要看的是我可以在我的芯片上运行最多的浮点运算?然后你可以根据这一标准排除90%的产品。但在那之后,你需要进行更详细的分析,看看,好吧,我有这些浮点运算,但其他部分会怎样?我有足够的带宽和互连吗?但毫无疑问,第一要素是那个顶线的FLOPS。
**乔(41:38):**当我们谈论每美元提供更多的FLOPS时,您的目标是什么?当前的基准FLOPS每美元是多少?我们是在讨论可以便宜90%吗?您认为在市场上推出在这个指标上有意义地更好的产品是什么?
**莱纳(41:56):**因此,NVIDIA的Blackwell以FP4格式提供了10 petaFLOPS的芯片,该芯片的售价大约在30,000到50,000美元左右,取决于许多因素。这比上一代NVIDIA芯片(Hopper芯片)好了大约两到四倍。其中一部分来自于降低精度,从8位精度到4位精度。一般来说,精度一直是提高在一定量硅中可以打包的FLOPS的最佳方法之一。还有一些来自于NVIDIA一直在推行的成本降低等其他因素。这就是NVIDIA目前的基准。您至少需要比这个整数倍更好才能与现有厂商竞争。因此,我们会说在这个指标上至少要好两到三倍。但当然,如果您是为未来设计,您还必须与其后一代竞争。因此,您希望比未来的芯片(尚未推出)好很多倍。这就是您的目标。
**乔(42:56):**有关这个业务,还有其他我们应该了解但尚未涉及的重要事项吗?
**迈克(43:03):**有一件事,鉴于这是《Odd Lots》,我认为山姆·奥特曼在全球漫游谈论数万亿美元的支出的原因是他希望提高所有供应商的期望。因此,正如我们在半导体短缺中观察到的那样,如果供应商为某一特定需求量做好准备,而需求量,例如因COVID而取消订单的汽车制造商的情况,后来发现需求远远超出他们的预期。追赶需求花了很长时间。类似的事情发生在英伟达的H100上。因此,台积电实际上完全有能力跟上芯片本身的需求,但这些AI产品的芯片使用一种非常特殊的封装,使计算芯片非常靠近存储芯片,从而使它们能够非常快速地通信,这被称为CoWoS。
CoWoS的容量受限,因为台积电根据某种需求预期建造,当H100成为如此庞大的产品时,他们的CoWoS容量无法跟上需求。因此,供应链在准确预测时往往非常好,如果低估预测,那么就会出现这些短缺。但另一方面,这些公司,因为制造公司的资本支出很高,他们相当不愿意在高端错误地预测,因为这会导致他们在资本支出上花了一大笔钱,而无法收回。
**乔(44:52):**是的,这非常有趣,这个想法在某种程度上是一个信号,我们没有放慢脚步。我们有越来越多的事情要做。因此,如果你在半导体供应链的任何环节,不要开始削减你的期望或减少你的生产,因为我们想要建设更多。我很好奇,最后一个问题。我想对你们两个都问。你听到很多行业人士说,我们也许只有三四年的时间就能实现GI或超级智能,不管如何定义。然后你会涉及到很多这些哲学问题和伦理问题,AI会扮演什么角色,或者它会杀死我们所有人吗?或者你想要的任何恐惧场景,但你们两个,你们如何看待这个问题?我们是否会在短短几年内达到人们认为的某种GI,是短期目标还是仅仅几年之后才会实现,还是感觉不,那还需要很多年,甚至永远。我认为
**迈克(45:55):**现在我们拥有的是价值,
**乔(45:58):**抱歉,
**迈克(46:00):**坦率地说,大约是零。好的。
**乔(46:03):**谢谢
**迈克(46:03):**我的p很棒…我的意思是,我认为我们已经拥有了很棒的东西,我们最近才得到了这个质量水平的模型,我们正在学习如何使用它们,质量正在提高。让计算机写代码得很好这个事实对我来说相当惊人,你可以要求它讲一个好笑话,以某个特定人的风格,它也可以做到,这也是令人惊讶的。是的。
**乔(46:32):**嗯,我很高兴你们被彻底毁灭的几率是零。这让我感觉好一点。瑞安和迈克,非常感谢你们参加《Outlaws》。我从那次对话中学到了很多。
**莱纳(46:45):**这是一种乐趣。
**乔(46:58):**在那次对话中显然有很多非常有趣的内容,但我特别喜欢关于大型传统企业进入全新业务的激励部分。对于像谷歌这样的公司,他们芯片的主要目的将是为内部业务服务。即使他们拥有所有的资金,即使拥有工程人才,仍然存在一个权衡问题,即我们到底想要为其他目的构建芯片,为某种外部服务构建芯片。
**Tracy (47:33):**我也觉得山姆·奥尔特曼(Sam Altman)在四处宣扬他将花费多少十亿美元的观点很有趣,这在大流行病之后似乎很合理。而半导体,我相信你还记得,我认为那实际上是我们第一次了解到皮鞭效应的地方,这个概念是指供应链的一端,也就是客户需求发生非常微小的变化,可能会在整个供应链中产生连锁反应。所以当制造商开始削减订单时,这产生的影响比你预期的要大得多,而且持续时间更长。因此,看到一些公司从另一端着手,表示我们有很多资金,我们会长期存在,这是很有趣的。
**Joe (48:20):**我们不会放慢脚步。我们要走向通用人工智能(AGI)。所以如果你认为,哦,我们将推出GPT-5,然后我们将专注于将其商业化并出售给航空公司用于客户支持,然后进入滑翔模式并获取业务,他们想要表明他们正在构建越来越多。我觉得这很有趣。我觉得有关英伟达(Nvidia)和Cuda的观点很有趣,即Cuda软件生态系统被认为是一道壁垒,使其他半导体公司更难进入同一业务。但从英伟达的角度来看,这也是一种限制,即如果他们希望一切都与Cuda兼容或在相同的软件使用家族中,那也会限制他们可能涉足的潜在领域。
**Tracy (49:13):**为竞争对手开辟空间。但我不知道为什么以前我没有真正内化这个教训,因为在我们讨论半导体时,这个问题总是出现,但我认为仍然存在这样的看法,或者至少也许我仍然有这样的看法,即围绕Nvidia的壕沟实际上是硬件。是的,但不是。是软件。是Cuda。
**Joe (49:34):**好像两者都是。
**Tracy (49:35):**嗯,但我认为我开始欣赏其中有多少是Cuda,这就是我的意思。
**Joe (49:42):**似乎一遍又一遍地提到人们使用这个软件,这是使不那么复杂的客户能够使用应用程序的软件。这似乎非常强大。听到围绕半导体设计的企业生态系统也很有趣。他提到了Broadcom。Reiner提到了Broadcom,这是一个我们在节目中似乎从未真正讨论过的公司。但如果你看看那支股票,我是说,它看起来有点像你在看一张近几年来一直是巨大赢家的Nvidia的图表。回到2020年,它是一支31美元的股票。现在是146美元的股票。好吗?它只是一个五倍股,所以也许不完全是Nvidia的回报。而这个想法…
**Tracy (50:34):**我喜欢Nvidia是如何扭曲的
**Joe (50:37):**每支股票的预期。
**Tracy (50:37):**就像它在一个不同的层面上。
**乔(50:41):**这个想法是,半导体初创公司不一定直接与台积电打交道,这是最复杂的先进技术,然后还有一些处于中间地带的公司。我觉得这非常有趣。
**特蕾西(50:54):**你知道吗,乔?我问ChatGPT什么是最美丽的半导体。是的。它说砷化镓因为几个原因被认为是美丽的。它的晶体结构经常因其清晰和优雅而受到赞赏。
**乔(51:11):**哦,哇。
**特蕾西(51:12):**所以我想半导体让砷化镓变得最美丽。
**乔(51:15):**在分子水平上有美丽,但实际上当你问这个问题时,我觉得,哦,这只是一个哲学上、有趣、异想天开的问题。但这个想法是只做最低限度的要求,或者不在房子里建造一堆你实际上不需要的额外房间。正如我们所知道的,即使Nvidia芯片在人工智能方面是世界上最好的,它们也可以做其他事情,比如以太坊挖矿,或者以前是这样的,那是基于工作量证明的旧日子。当然它们也用于视频游戏,但如果你真的只想要一台电脑,或者你真的只想要一个能说英语、写代码或者只是能思考而不玩视频游戏和挖矿的模型,那也许房子里有一堆完全不必要的房间。
**Tracy (52:08):**我是说,这也会有效率成本,对吧?
**Joe (52:10):**还有效率成本。
**Tracy (52:11):**是的。你尽可能地简化它。好了,我们就到这里吧?**Joe (52:13)**就到这里吧。
关注 Reiner Pope @reinerpope 和 Mike Gunter @mikegunter_