中国的DeepSeek挑战OpenAI和NVDA - 彭博社
Tracy Alloway, Joe Weisenthal
摄影师:安德烈·鲁达科夫/彭博社 周一,股市暴跌,似乎是对中国开发的开源AI模型DeepSeek出现的反应。半导体巨头英伟达作为AI热潮中最大的赢家,市值蒸发了5890亿美元,创下美国股市历史上最大的一日损失。其他芯片制造商和大型科技巨头也纷纷下跌。那么,DeepSeek是如何做到的?它对像OpenAI和Anthropic这样的美国AI巨头构成了重大威胁吗?这对美国芯片的出口限制意味着什么?在这期特别紧急的播客中,我们与AI专家兹维·莫肖维茨进行了交谈,他是优秀的Substack专栏作者,别担心花瓶。他回答了我们所有的问题,帮助我们理解这意味着什么。此转录经过轻微编辑以提高清晰度。
## 奇怪的交易:导致股市崩盘的AI模型
21:02
**播客的关键见解:**DeepSeek并不是为了500万美元而构建的 — 3:08为什么DeepSeek如此透明 — 6:35杰文斯悖论适用于AI — 8:58英伟达仍然掌握主动权 — 11:35每个人都忘记了谷歌 — 12:59为什么Meta应该感到担忧 — 14:15AI比以往的技术进步更具竞争力 — 17:18
---
**乔·韦森索尔 (00:18):**你好,欢迎收听另一集 奇异的交易 播客。我是乔·韦森索尔。
**特雷西·阿洛威 (00:23):**我是特雷西·阿洛威。
**乔 (00:24):**特雷西,DeepSeek 的抛售。
**特雷西 (00:27):**没错,情况相当严重。有人开过这个玩笑吗?
**兹维·莫肖维茨 (00:30):**我们在 DeepSeek 中。
**乔 (00:31):**是的,我觉得还没有人开过这个玩笑。
**特雷西 (00:33):**我会说,当市场上所有的头条新闻都在谈论标准差时,你就知道情况很糟糕。
**乔 (00:39):**对吧?
**特雷西 (00:40):**然后你就知道情况真的很糟糕,当你看到人们开始说这不是崩盘,而是“健康的修正”。这才是真正的自我安慰。
**乔 (00:49):**但为了真实的场景设定,我们最近进行了一些关于市场中科技集中度的及时采访,以及市场上有这么多公司在押注 AI,等等。无论如何,在周一——我想人们会在周二收听这个——市场遭受重创。英伟达,作为我在周一下午 3:30 讨论这个时的一个大赢家,跌幅达到 17%。所以我们谈论的是整个科技领域的重大损失。基本上,这似乎是由于引入了一个名为 DeepSeek 的高性能开源中国 AI 模型而引发的。根据我们所知,它是由一个对冲基金诞生的。显然,训练成本非常低,构建成本也很低。此时的技术限制似乎并不是太大问题。未来可能会有问题,但没错,这里有一些,整个市场正在押注许多 AI 公司现在担心的,当然是一个廉价的中国竞争者。
**特雷西 (01:45):**我刚意识到,乔,这实际上是你的错,不是吗?
**乔 (01:48):**是的。
**特雷西 (01:49):**因为上周你写了你是一个 DeepSeek AI 兄弟,看看你做了什么。你让英伟达的市值蒸发了5600亿美元。
**乔 (01:58):**是的,我的错。我的错。
**特雷西 (01:59):**那是你。
**乔 (02:00):**不过,有一个有趣的问题是,这在12月的白皮书中已经宣布了。为什么要等到1月27日才真正让人们感到恐慌?大问题。无论如何,让我们直接进入主题。我们确实有完美的嘉宾,他曾在我们的选举前特别节目中出现过。一个了解数字、人工智能和量化内容的人。他写的Substack对我来说每天都是必读,我不知道他每天怎么写这么多。我们将与兹维·莫肖维茨交谈。他是 不要担心花瓶博客,或者说Substack的作者。兹维,你也是一个DeepSeek AI 兄弟。你已经开始使用这个了。
**兹维 (02:42):**所以我使用各种不同的人工智能。我会使用来自Anthropic的Claude。我会使用来自OpenAI的ChatGPT的o1。我有时会使用Gemini,还会使用Perplexity进行网络搜索。但我会使用R1,这个新的DeepSeek模型,用于某些类型的查询,我想看看它是如何思考的,看看逻辑是如何展开的,然后我可以判断。这有道理吗?我同意吗?
**特雷西 (03:08):**似乎让人们和市场感到恐慌的事情之一是,这个模型据说是在非常低的成本下训练的,大约是550万美元用于DeepSeek-V3——尽管我看到有人错误地说550万美元是用于它的所有R1模型,但技术论文中并没有这样说。这只是针对V3的。不过,我应该提到,它似乎有很大一部分是基于Llama构建的,所以他们在某种程度上是依赖于其他人的投资。不过,550万美元用于训练。这是否A) 现实?然后B) 我们是否知道他们是如何做到的?
**兹维 (03:53):**所以我们非常清楚他们到底做了什么,因为他们异常开放,并且给我们提供了技术论文,告诉我们他们做了什么。他们仍然隐藏了一些过程的部分,特别是从V3(以550万美元训练)到R1(这是推理模型,需要额外的数百万美元),他们试图让我们更难以复制,因为没有分享他们的强化学习技术。但我们不应该过于依赖或被550万美元的数字所迷惑。并不是说它不真实,它非常真实。但为了获得花费550万美元并让模型产生的能力,他们必须获取数据,雇佣工程师,建立自己的集群。他们必须对自己的集群进行极度优化,因为由于出口管制,他们在芯片访问方面遇到了问题。
他们正在使用[Nvidia] H800s进行训练。他们这样做的方式是进行了各种小型优化,包括完全整合硬件、软件以及他们所做的一切,以便以尽可能低的成本在15万亿个标记上进行训练,并获得与其他公司在更高计算能力下获得的相同或接近的性能水平。但这并不意味着你可以以550万美元获得自己的模型,即使他们告诉你很多信息。总的来说,他们花费了数亿美元来获得这个结果。
**乔 (05:11):**等一下,进一步解释一下。为什么仍然需要数亿美元?这是否意味着如果需要数亿美元,他们能够做到的与美国实验室之间的差距,可能没有人们想象的那么大?
**兹维 (05:24):**好吧,DeepSeek所做的是他们对芯片的访问较少。他们不能像OpenAI、微软或Anthropic那样购买Nvidia芯片。因此,他们必须充分利用他们所拥有的芯片,进行非常高效的使用。因此,他们专注于所有这些优化以及节省计算成本的方法,但为了达到这一点,他们不得不花费大量资金来弄清楚如何做到这一点,并建立相应的基础设施。一旦他们知道该怎么做,花费他们550万美元来实现。而且他们分享了很多信息。这大大降低了那些想要追随他们脚步并训练新模型的人的成本,因为他们展示了许多优化的方法,人们之前并没有意识到他们可以这样做或不知道如何做到。现在这些方法可以很容易地被复制,但这并不意味着你距离自己的V3只有550万美元的差距。
**特雷西 (06:19):**让人感到恐慌的另一件事是这是开源的。我们都记得OpenAI曾经更开放的日子,而现在它已经转向闭源。你认为他们为什么这样做,这有多重要?
**兹维 (06:35):**所以这是其中一件事情,他们有一个故事,你可以相信他们的故事,也可以不相信,但他们的故事是,他们基本上在意识形态上支持每个人都应该有机会接触到相同的人工智能;人工智能应该与世界分享。特别是中国应该帮助建立自己的生态系统,他们应该帮助发展所有的人工智能,以造福人类,他们将获得人工通用智能,并且他们也会将其开源。这就是DeepSeek的主要点。这就是DeepSeek存在的原因。他们甚至不太承认有商业模式,他们… 他们是对冲基金的衍生物,对冲基金赚钱,也许他们可以选择这样做,或者也许他们会最终有不同的商业模式。
但从很多角度来看,如果你开源越来越强大的模型,这显然是非常令人担忧的,因为人工通用智能意味着:某种与我们人类一样聪明和有能力的东西,甚至可能更聪明。如果你将其以开放的形式交给世界上任何想要做任何事情的人,那么我们不知道这有多危险。但在某种程度上,释放比我们更聪明、更有能力、更具竞争力的东西是存在风险的,这些东西将会自由地参与任何人类指挥他们去做的事情。
**特雷西 (07:58):**我有一个非常愚蠢的问题,但我听到人们一直在说“人工通用智能”,AGI。这实际上是什么意思?
**兹维 (08:07):**关于这到底意味着什么有很多争议。这些词的使用并不一致,但它代表人工通用智能。一般来说,它被理解为你可以完成任何可以在计算机上完成的任务,这些任务只能通过认知完成,和人类一样。
**乔 (08:26):**我的意思是,这些东西大多数情况下做得比我好。我不知道怎么编码,但我明白仍然有一些事情。也许它们在证明一些“你是人类吗?”测试时不会那么好。每个人都在谈论杰文斯悖论。所以我们看到英伟达和博通的股票,这些芯片公司,今天都在崩溃。其中一个理论是,哦不,随着所有这些优化等等,研究人员只会使用这些,他们仍然会对计算有最大的需求。因此,这实际上不会改变计算的最终需求。你是怎么考虑这个问题的?
**兹维 (08:58):**所以从这个辩论的角度来看,我现在绝对是一个杰文斯悖论的支持者。
**乔 (09:03):**所以你认为这不会对计算需求产生负面影响。
**兹维 (09:08):**我今天早上发的推文是“英伟达在市场前下跌11%,因为它的芯片非常有用。”我相信我们已经证明,是的,从某种意义上说,你可以从每个英伟达芯片中获得比预期更多的东西。你可以获得更多的人工智能。如果与人工智能相关的事情是有限的,一旦你完成了那些事情你就完成了,那么那将是另一个故事。但情况并非如此。
随着我们朝着AGI的进一步发展,这些AI变得越来越强大,我们将希望将它们用于越来越多的事情,越来越频繁。最重要的是,R1的整个革命以及OpenAI的o1都是推理时间计算。这意味着每次你问一个问题时,它将使用更多的计算资源,更多的GPU周期来思考更长时间,基本上使用更多的令牌或单词来找出最佳答案。这是可扩展的,虽然不一定没有限制,但它可以扩展得非常非常远。因此,OpenAI的新o3能够思考很多分钟。它有可能在单个查询上花费数百甚至理论上数千美元或更多。如果你将这个数字降低一个数量级,这几乎肯定会让你在获得特定结果时使用它更多,而不是使用得更少。因为这实际上开始变得不可承受。
随着时间的推移,如果你能够花费极少的钱,然后获得像虚拟员工和回答任何问题的能力,嗯,基本上对这样做的需求是无限的,或者随着价格下降,提升答案质量的需求也是无限的。因此,我基本上预期,只要Nvidia能够快速制造芯片,我们就能将它们放入数据中心并提供电力,人们将乐于购买这些芯片。
**Tracy (10:54):**冒犯Jevons悖论兄弟的风险,稍微深入探讨一下Nvidia的问题,我对DeepSeek的理解是,它特别的原因之一是因为它不依赖于专用组件、定制操作符,因此它可以在各种GPU上工作。是否存在一种情况,AI变得如此便宜和丰富,这在理论上可能对Nvidia有利,但与此同时,因为它可以在其他许多GPU上轻松运行,人们开始使用更多像ASIC(应用特定集成电路)这样的芯片,即为特定目的定制的芯片?
**Zvi (11:35):**我的意思是,从长远来看,我们几乎可以肯定会看到专门的推理芯片,无论它们来自Nvidia还是其他公司,我们几乎可以肯定会看到各种不同的进展。今天的芯片在几年内将会过时。这就是AI的运作方式,对吧?有这么多快速的进展。
但我认为Nvidia处于一个非常非常好的位置,可以利用这一切。我当然不认为你只会用你的笔记本电脑来运行最好的AGI,因此我们不必担心购买GPU是一个糟糕的选择。竞争对手可能会推出更优越的芯片,这始终是可能的。Nvidia并没有垄断,但Nvidia目前似乎确实处于主导地位。
**Joe (12:29):**在我看来,我知道还有其他公司,但在美国似乎有三个主要的AI模型生产商是人们所熟知的。分别是OpenAI、Claude,以及Meta的Llama。值得注意的是,Meta今天是绿色的,股票在我谈论这个时实际上上涨了1.1%。快速浏览一下每一个,DeepSeek冲击如何影响他们及其生存能力,以及他们今天的立场。
**Zvi (12:59):**我认为你问题中最惊人的事情是你忘记了Google。
**Joe (13:02):**哦,是的,对吧?这很有启发性,不是吗?
**Zvi (13:05):**但其他人也都忘记了。我从来没有使用过Gemini。这并不令人惊讶。Gemini Flash Thinking,他们的o1和R1版本,几天前进行了更新,许多报告称它现在实际上非常好,并且可能具有竞争力。实际上,对于很多人来说,在AI Studio上使用是免费的。但我认识的没有人花时间去检查并发现它有多好,因为我们都太沉迷于成为DeepSeek兄弟了。
谷歌的修辞午餐一次又一次地被吃掉。十二月,OpenAI不断推出一个又一个的进展,然后谷歌也会有一个又一个的进展,而谷歌似乎实际上,如果有什么的话,更令人印象深刻。然而,大家总是只谈论OpenAI。所以这甚至不是新鲜事。那里发生了一些事情。因此,就OpenAI而言,OpenAI在某种意义上应该非常紧张,因为他们拥有推理模型,而现在他们的推理模型被复制得比以前更有效。而且竞争对手的成本远低于OpenAI的收费。所以这显然对他们的商业模式构成了直接威胁。而且看起来他们在推理模型上的领先优势比你预期的要小得多,也更容易被扭转,因为如果DeepSeek可以做到,当然Anthropic和谷歌也可以做到,其他人也可以做到。
生产Claude的Anthropic尚未推出自己的推理模型。他们显然在某种意义上面临计算资源短缺。因此,他们完全有可能选择不推出推理模型,即使他们可以,或者没有专注于尽快训练一个,直到他们解决了这个问题。他们持续获得投资。我们应该期待他们随着时间的推移解决他们的问题,但他们似乎应该直接感到担忧,因为在某种意义上,他们的产品竞争力较弱,但他们的市场定位往往更有效地面向更有意识的人群,因此他们的人也会了解DeepSeek,并会面临选择。如果我是Meta,我会更加担心,特别是如果我在他们的Gen AI团队中并想保住我的工作,因为Meta在这里的损失是巨大的,对吧?
Meta与Llama拥有最好的开放模型,所有最好的开放模型实际上都是Llama的微调版本。而现在DeepSeek出现了,这绝对不是Llama的微调。这是他们自己的产品,而V3已经把Meta的所有东西都甩在了身后。R1,有报告称它比他们现在正在训练的新版本更好。它比Llama 4更好,我认为这应该是事实。因此,如果开放模型社区中的每个人都在想,为什么我不直接使用DeepSeek,那发布一个劣质的开放模型就没有意义了。
**乔(15:38):**特雷西,有趣的是,正如兹维所说,应该感到紧张的人是Meta的员工,而不是Meta本身,因为Meta的股票在上涨。所以你不得不想,可能他们不需要在自己的开源AI上投资那么多,如果外面有一个更好的,而现在股票反正也在上涨。
**兹维(15:57):**从我的角度来看,市场对Meta所做的不同事情的反应一直很奇怪。曾几何时,Meta会宣布我们在AI上花费更多,我们在投资所有这些数据中心,我们在训练所有这些模型。市场会说,你在做什么?这是另一个元宇宙之类的东西,我们要打压你的股票,把你拖下水。然后在最近宣布的650亿美元支出后,Meta的股票上涨了。可以推测,他们主要会将其用于推理,因为他们在Facebook和Instagram上想要将AI应用到各个场景中,面临着巨大的推理成本。因此,如果有什么的话,我认为市场可能在推测这意味着他们将知道如何训练更便宜的Llama,从而降低成本,进而处于更好的位置。而这个理论并不疯狂。
**特雷西 (16:44):**既然我们都共同想起了谷歌。我有一个问题,这个问题在我脑海中一直萦绕,我想乔之前也提过,但当谷歌首次推出时,人们花了很多年才逐渐适应搜索功能。实际上,没有人真的赶上,对吧?所以谷歌多年来一直占据主导地位。为什么在这些聊天机器人方面,这些企业周围没有更高、更广的护城河呢?
**兹维 (17:18):**一个原因是每个人都在大致相同的数据上进行训练,也就是说整个互联网和人类所有的知识。因此,除非你基于自己的模型创建合成数据,否则很难在这方面获得持久的数据优势,这正是OpenAI现在可能正在做的。另一个原因是因为每个人都在尽可能快地扩展,并定期在一切上增加零。在日历时间上,你的竞争对手很快就会拥有比你更多的计算能力,他们会更积极地复制你的技术。秘密成分少得多,算法也就那么多。
从根本上说,每个人都依赖于扩展法则。这被称为苦涩的教训,意思是你只需更多扩展。你只需使用更多的计算,使用更多的数据,使用更多的参数。而DeepSeek则表示,也许你可以进行更多的优化,绕过这个问题,仍然获得一个更优越的模型。但大多数情况下,是的,有很多我可以通过复制你所做的事情来赶上你,因为我可以看到输出,对吧?我可以查询你的模型,并利用你的模型的输出来主动训练我的模型。你在大多数被训练的模型中看到这一点,你问他们是谁训练你的,他们通常会说,哦,我来自OpenAI。
**乔 (18:33):**互联网变得如此奇怪。互联网真是太奇怪了。Zvi Mowshowitz,非常感谢你跑到 Odd Lots 帮我们录制这个关于DeepSeek抛售的紧急播客。太棒了。
**Zvi (18:45):**好的,谢谢你。
**乔 (18:58):**Tracy。我喜欢和Zvi聊天。我们得让他成为我们的AI专家。
**Tracy (19:04):**老实说,我们这周可能还可以请他回来。会有事情发生。
**乔 (19:09):**也许我们会。显然我们可以聊得更久。这是一个非常激动人心的故事。这真是一个非常激动人心的故事,而这些天事情变得越来越奇怪。
**Tracy (19:19):**这一切发生得真是太快了,真有点疯狂。然后我想说的另一件事就是,苦涩的教训。这个名字真适合一个乐队。
**乔 (19:29):**哦,完全是。绝对很棒。也许当我们组建一个以AI为主题的前卫摇滚乐队时,Tracy,这可以是我们的名字。
**Tracy (19:36):**是的,咱们就这么定了。好吧,我们就到这里吗?
**乔 (19:38):**就到这里吧。
你可以在 @thezvi 上关注Zvi Mowshowitz。