DeepSeek AI平台带来1万亿美元市场的成本清算 - 彭博社
Shirin Ghaffary, Rachel Metz
DeepSeek在周一震撼了全球科技股。
摄影师:安德烈·鲁达科夫/彭博社上周,最大的人工智能公司负责人聚集在瑞士阿尔卑斯山,所有目光都投向东方。在达沃斯世界经济论坛的讨论小组和私下交谈中,科技高管们强调美国及其盟友需要建立更多的数据中心,并在监管上找到合适的平衡,以在人工智能发展上领先中国。
“我们在模型上可能领先一年以上,”Alphabet Inc.的总裁兼首席投资官露丝·波拉特在活动中告诉彭博新闻。但她补充说,“这并不是一个必然的结论”,美国是否能保持其优势尚未确定。
即便如此,这可能也过于乐观。在同一周,一家鲜为人知的中国人工智能初创公司DeepSeek发布了一种新的开源人工智能模型R1,该模型能够模仿人类的推理方式。该公司表示,R1在一系列行业基准测试中与领先的美国开发者相媲美或超越,包括数学任务和一般知识——而且其成本仅为一小部分。到周末,DeepSeek在Chatbot Arena上排名上升,这是一个备受关注的人工智能系统排行榜,科技界的知名人物如马克·安德森称该产品为“人工智能的斯普特尼克时刻。”
鲁思·波拉特在达沃斯。摄影师:斯特凡·维尔穆斯/彭博社现在,R1发布的后果正在迅速蔓延至美国,因为科技行业试图理解DeepSeek是如何完成这一壮举的,以及这家新兴公司是否如其所声称的那样以低成本实现了这一目标。已经有人怀疑这家中国新兴公司是在西方技术的基础上构建其聊天机器人,从而绕过了开发大型语言模型的巨大成本。
## 重大看法
DeepSeek的恐慌
17:26
在旧金山,人工智能高管和员工正在紧急分析DeepSeek的技术。根据知情人士的说法,一些OpenAI的员工正在试图弄清楚DeepSeek是如何能够发布如此模型的。另一位人士表示,公司内部有一种感觉,即OpenAI需要非常认真地对待中国公司的发展,因为这为创新和改进现有模型提供了机会。OpenAI首席执行官山姆·阿尔特曼最近告诉员工,这次发布标志着这家初创公司的一次重大格局转变,某位知情人士表示。
萨姆·阿尔特曼摄影师:安德鲁·哈尼克/盖蒂图片社据知情人士透露,Meta也专注于开源AI模型,已成立一个内部团队,专注于分析DeepSeek,以更好地理解它是如何构建的以及它能做什么。该公司还组建了类似的工作组,以评估其他主要竞争对手,如OpenAI的GPT-4模型和谷歌的Gemini。
几乎一夜之间,DeepSeek颠覆了硅谷内部关于构建AI经济学的许多假设,以及开发该技术的最佳技术方法和美国在中国竞争对手面前的领先程度。在过去两年多的时间里,自从ChatGPT引发全球AI热潮以来,行业一直认为,通往更好人工智能的道路在很大程度上依赖于对来自英伟达公司等公司的更先进芯片和日益庞大的数据中心的重金投入。阅读更多: DeepSeek的迅速成名使其系统承压,遭到攻击
市场的后果令人震惊。对DeepSeek成就的炒作在周一导致美国和欧洲科技股几乎蒸发了1万亿美元的市值,因为投资者质疑一些美国大公司的支出计划。仅仅是AI芯片制造商英伟达的股价暴跌就抹去了大约5890亿美元的市场价值,这是美国股市历史上最大的损失。与此同时,在华盛顿,立法者们不得不想办法遏制中国在一些人认为对其军事和经济至关重要的技术上的进展,因为拜登政府的芯片出口限制并不足够。唐纳德·特朗普总统的加密和AI专员大卫·萨克斯表示,DeepSeek表明全球AI竞赛将非常激烈,同时指责拜登政府的监管“束缚”了AI的发展。
进一步复杂化的是,关于大型人工智能投资的重新不确定性恰逢特朗普几天前倡导了一项1000亿美元的合资企业,该企业由OpenAI、软银集团和甲骨文公司共同发起,旨在通过投资数据中心和其他实体基础设施来提升美国的竞争力。现在,对于天文数字的人工智能预算的合理性出现了新的疑问。
“这是一个范式转变,”Databricks Inc.的首席执行官Ali Ghodsi说。“这些能够推理的模型生产成本低得多,因此你会看到它们的民主化。你会看到来自世界意想不到角落的创新。”
DeepSeek的崛起
对于梁文峰来说,DeepSeek最初是一个副项目。40岁的梁在2023年创建了DeepSeek,作为他对冲基金浙江高飞资产管理公司人工智能部门的一个分支。
梁能够利用一些当地人才,关键是芯片。他在美国实施出口限制之前,已经开始囤积大约10,000个Nvidia A100 GPU——这是训练人工智能系统的关键技术的一个旧版本。他曾表示,他的大多数顶尖研究人员都是来自中国顶尖大学的应届毕业生,强调中国需要发展自己的国内生态系统。
DeepSeek迅速发布了一系列开源人工智能模型,首个模型DeepSeek LLM于2023年底发布。两个更先进的模型——V2和V3——分别在2024年中期和末期发布。然而,真正引起共鸣的是DeepSeek的R1模型,该模型于1月中旬发布。
DeepSeek 在 AI 模型竞争者中排名第三
社区评估的前 5 家公司的最佳模型得分
来源:聊天机器人竞技场
与 OpenAI、Google 和 Anthropic 的一些最新模型一样,R1 的目的是模仿人类在思考问题时有时会花时间计算答案,然后再回应用户查询。然而,DeepSeek 的版本在效率上有所不同。其背后的团队提出了一些简单但关键的创新,例如寻找方法以更充分地利用他们所能接触到的计算机芯片。另一个突破是:大量依赖一种称为强化学习的技术,该技术对正确答案给予系统奖励,而对错误答案进行惩罚。
DeepSeek 的应用在美国用户中颇受欢迎,部分原因是其友好且略显笨拙的聊天机器人详细展示了它计划如何回应一个人的问题,然后再深入结果。这种方法包含的细节远超过 OpenAI 最新的推理模型。而且与 OpenAI 不同的是,后者对其最先进的推理模型等功能收取 每月高达 200 美元 的无限制访问费用,DeepSeek 目前则免费提供其服务。但 DeepSeek 也会审查在中国可能敏感的话题。例如,询问中国文化大革命可能会引发这样的回应:“抱歉,这超出了我当前的范围。我们聊点别的吧。”
在 R1 发布后的一个小时内,Ghodsi 说他收到了来自 DataBricks 客户的第一个请求,询问如何使用它。自那时以来,需求只增不减。他特别提到,公司希望了解如何在 Databricks 现有的 AI 模型上添加 DeepSeek 的推理能力——他表示,DeepSeek 的努力表明这可以以低成本实现。
“这种速度和兴趣水平对我们来说是前所未有的,”Ghodsi说。
DeepSeek的版本在效率上与竞争对手有所不同。摄影师:Andrey Rudakov/Bloomberg软件公司OpenReplay的首席执行官Mehdi Osman表示,他的公司传统上使用OpenAI、Anthropic和Mistral的服务,而DeepSeek的推理能力似乎与OpenAI相当。“如果OpenAI不降低价格,我认为许多开发者将在未来几个月转向DeepSeek,”Osman说。
OpenAI拒绝发表评论。DeepSeek没有回应评论请求。
“这有点出乎意料,”谷歌DeepMind的首席执行官Demis Hassabis上周在达沃斯对彭博新闻说。“毫无疑问,这是一个令人印象深刻的系统。”但与行业中的其他人一样,Hassabis对DeepSeek的模型如何运作表示不确定,包括它在多大程度上依赖于其他西方模型。
与此同时,Altman告诉OpenAI员工,他的初创公司正在试图理解DeepSeek的表现是否以及在多大程度上是提炼OpenAI模型的结果——也就是说,使用该公司的AI输出训练一个具有类似能力的不同模型——还是代表了一项独立的研究突破,依据一位熟悉此事的人士。
“即使那[提炼OpenAI模型]为他们节省了一点时间和一点钱——我并不是说他们这样做了——显然在论文中有很多真正的技术工作,大家可以自己查看并判断,”最近离开OpenAI的独立AI政策研究员Miles Brundage说。
一些美国科技创始人和风险投资家对DeepSeek技术的真实价格标签也持怀疑态度。许多人,包括Brundage,质疑DeepSeek的560万美元培训估算是否包括先前研究实验的成本以及对图形处理单元的固定投资成本,例如建设数据中心。
梁则表示,成本和筹款并不是他主要的关注点。相反,梁在接受中国媒体36kr采访时表示,进一步发展的瓶颈是美国对最佳芯片的访问限制。
“更多的投资不一定会导致更多的创新,”梁说。“否则,大公司将垄断所有的创新。”
新的竞争格局
在DeepSeek热潮的几周前,梁可能提到的一些大公司更加展示了他们的财力。
亚马逊预计在2024年将花费约750亿美元用于资本支出,并在今年增加支出,主要用于支持人工智能的技术基础设施,如芯片和数据中心。Meta表示将在2025年投资 多达650亿美元用于与人工智能相关的项目。微软 表示将在本财年花费800亿美元用于人工智能数据中心。
最大的云计算公司大部分支出都用于Nvidia的图形处理单元。亚马逊、谷歌和微软也在开发专为人工智能设计的定制芯片,如果开发者能够在不太专业的硬件上构建和运行模型,这项工作在长期内可能会变得不那么有用,BNP Paribas Exane的分析师Stefan Slowinski在周一的一份研究报告中写道。
云计算巨头们已经在应对投资者关于其巨额人工智能支出的回报的问题。以微软为例,它在将Copilot聊天机器人融入其大部分产品线时,面临着盈利的挑战。与此同时,亚马逊在开发自己的大型语言模型方面落后于主要竞争对手,即使它在零售和云计算业务中注入了聊天机器人和其他人工智能工具。
亚马逊的工程师们在奥斯汀的Annapurna实验室致力于人工智能芯片的研发。摄影师:Sergio Flores/Bloomberg尽管如此,这两家公司的巨额投资可能会在未来获得回报。亚马逊押注于其作为最大租赁计算能力提供商的地位,将帮助其在其他公司在亚马逊网络服务的服务器上训练和运行人工智能程序时蓬勃发展。根据Bernstein Societe Generale Group的分析师Mark Moerdler的说法,微软更专注于构建运行人工智能模型的数据中心,而不是训练它们,他预计该公司的支出将在明年早些时候放缓。“我们认为他们主要是在构建推理能力,而不是训练,”他说。“如果这是正确的,我认为DeepSeek对微软来说不是问题。”
一个大问题是,美国大型科技公司是否会采纳DeepSeek的方法。一些人工智能开发者表示,这家中国新兴公司的成功可能会加速向更便宜和更有利可图的人工智能的转变——启动了一种自然进程,这种进程推动了几乎每一个主要技术发展的进步,从芯片到智能手机。
“大型语言模型的未来属于那些专注于更高效技术的人,而不是更多计算能力,”AI初创公司Cohere的首席执行官艾丹·戈麦斯说。“我们对此相信已久,但这终于在整个行业中得到了认可。”