DeepSeek的人工智能革命了行业成本 - 彭博社
Shirin Ghaffary, Rachel Metz
DeepSeek的版本在效率上与其竞争对手有所不同。照片:安德烈·鲁达科夫/彭博社上周,当最大的人工智能公司领导人在瑞士阿尔卑斯山聚集时,所有的目光都集中在东方。在达沃斯世界经济论坛的圆桌会议和私人谈话中,科技行业的高管们强调了美国及其盟友需要建立更多的数据中心,并在法规方面实现适当的平衡,以保持在人工智能发展上领先于中国。
“我们在模型方面可能领先了一年,”Alphabet Inc.的总裁兼投资总监露丝·波拉特在活动中对彭博新闻表示,但她补充说,“美国保持其优势并不是一个必然的结论。”
即便如此,这可能也过于乐观。在同一周,一家名为DeepSeek的鲜为人知的中国人工智能公司推出了一种名为R1的新型开源人工智能模型,该模型可以模仿人类的推理方式。该公司表示,R1在一系列行业基准测试中与美国主要开发者相媲美或超越,包括数学任务和常识,并且其开发成本仅为一小部分。到周末,DeepSeek在Chatbot Arena(一个备受关注的人工智能系统排行榜)上迅速上升,科技界的知名人士如马克·安德森表示,该产品是“人工智能的斯普特尼克时刻”。
鲁思·波拉特在达沃斯。照片:斯特凡·维尔穆斯/彭博社现在,R1发布的后果正在迅速蔓延到美国,同时科技行业试图理解DeepSeek是如何实现这一壮举的,以及这家初创公司是否真的像所说的那样便宜。已经有人怀疑这家中国初创公司是用西方技术创建了它的聊天机器人,从而避免了开发大型语言模型的巨大成本。
在旧金山,专注于人工智能的高管和员工正在紧急分析DeepSeek的技术。根据知情人士的说法,OpenAI的一些员工正在试图弄清楚DeepSeek是如何能够推出这样的模型的。另一位人士表示,公司内部有一种感觉,即OpenAI需要非常认真地对待中国公司的发展,因为这为创新和改善现有模型提供了机会。OpenAI首席执行官山姆·阿尔特曼最近对员工表示,这次发布标志着初创公司格局的重要变化,某位知情人士评论道。
“DeepSeek的R1是一个令人印象深刻的模型,”阿尔特曼在一 条帖子中表示,这是他在X上的首次公开反应。“显然,我们将提供更好的模型,拥有一个新的竞争对手也真的令人振奋。”
萨姆·阿尔特曼照片:安德鲁·哈尼克/盖蒂图片社Meta Platforms Inc.,也专注于开源人工智能模型,已成立一个内部团队,专注于DeepSeek的分析,以更好地理解其创建方式及其功能,知情人士表示。该公司还成立了类似的工作组,以评估其他主要竞争对手,如OpenAI的GPT-4和谷歌的Gemini,知情人士称。
几乎一夜之间,DeepSeek颠覆了硅谷对人工智能创作经济的许多假设,以及开发技术的最佳技术方法和美国在与中国竞争对手之间的优势。在过去两年中的大部分时间里,自从ChatGPT引发全球人工智能热潮以来,行业一直认为,通往更好人工智能的道路在很大程度上依赖于在像英伟达公司这样的公司上花费大量资金购买更先进的芯片,以及越来越大的数据中心来容纳它们。
美国总统唐纳德·特朗普对此发展表示欢迎,称其“很好,因为不需要花那么多钱”。行业领头羊英伟达,其股票在DeepSeek首次亮相时遭受重创,也在周一的声明中称赞这一“优秀的人工智能进展”。
特朗普补充道:“中国公司推出DeepSeek AI应该成为我们行业的警钟:我们必须严格专注于竞争以赢得胜利。”
市场崩溃的后果令人震惊。对DeepSeek壮举的热情导致美国和欧洲的科技股在周一几乎下跌了1万亿美元,同时投资者质疑一些美国最大公司的支出计划。仅仅是人工智能芯片制造商Nvidia的股票下跌就抹去了大约5890亿美元的市值,这是美国股市历史上最大的跌幅。
与此同时,在华盛顿,立法者必须找到最佳途径来遏制中国在一些被认为对其军队和经济至关重要的技术上的进展,因为拜登政府对芯片的出口限制并不足够。特朗普总统的加密货币和人工智能专员大卫·萨克斯表示,DeepSeek表明全球人工智能竞赛将非常激烈,同时指责拜登政府的监管“瘫痪”了人工智能的发展。
更复杂的是,关于人工智能的大规模投资的重新不确定性恰好发生在特朗普为OpenAI、软银集团和甲骨文公司之间的1000亿美元合资企业辩护之后,该合资企业旨在通过投资数据中心和其他基础设施来提升美国的竞争力。现在,对于这些天文数字预算的逻辑提出了新的质疑。
“这是一个范式的变化,”Databricks Inc.的首席执行官Ali Ghodsi表示。“这些能够推理的模型生产成本更低,因此我们将看到它们如何被民主化。我们将在世界上最意想不到的角落看到创新。”
DeepSeek的崛起
对于梁文峰来说,DeepSeek最初是一个副项目。40岁的梁在2023年创建了DeepSeek,作为他对冲基金浙江高飞资产管理公司人工智能部门的一个分支。
梁成功地利用了当地的人才,尤其是芯片。他在美国实施出口限制之前,已经开始积累大约10,000个Nvidia A100 GPU(这是训练人工智能系统的关键技术的一个较旧版本)。而且,他的主要研究人员大多数是中国顶尖大学的应届毕业生,他强调中国需要发展自己的国家生态系统。
DeepSeek迅速推出了一系列开源人工智能模型,2023年底推出了DeepSeek LLM。两个更先进的模型V2和V3分别在2024年中期和末期上市。然而,真正产生重大影响的是DeepSeek于1月中旬推出的R1模型。
DeepSeek在人工智能模型竞争者中排名第三
社区评估的五大公司最佳模型排名
来源:Chatbot Arena
与OpenAI、Google和Anthropic的一些最新模型类似,R1旨在模仿人类在回答用户查询之前,有时会花时间计算答案的方式。然而,DeepSeek的版本在效率上有所不同。其背后的团队想出了几项简单但关键的创新,例如找到更多利用他们可以访问的计算机芯片的方法。另一个进展是大力依赖一种称为强化学习的技术,该技术通过正确的回答奖励系统,并对错误的回答进行惩罚。
DeepSeek应用在美国用户中变得流行,部分原因是它有一个友好的聊天机器人,声音有些奇怪,能够详细展示它如何计划回答一个人的问题,然后再深入结果。这个方法包含了比例如OpenAI最新的推理模型更多的细节。而且与OpenAI不同的是,后者每月收费高达200美元以获得无限访问其最先进推理模型的权限等功能,DeepSeek目前提供免费的服务。但DeepSeek也会审查在中国可能敏感的话题。例如,询问中国文化大革命可能会引发这样的回答:“抱歉,这超出了我目前的能力范围。我们换个话题吧。”
戈赫西表示,在R1发布一小时后,他收到了来自DataBricks客户的第一个请求,询问是否可以使用它。从那时起,需求只增不减。特别是,他说,公司想知道如何将DeepSeek的推理能力添加到现有的DataBricks人工智能模型中,DeepSeek的努力证明这可以以经济的方式实现。
“这种兴趣的速度和程度对我们来说是前所未有的,”戈赫西说。
OpenReplay软件公司的首席执行官梅赫迪·奥斯曼表示,他们公司传统上使用OpenAI、Anthropic和Mistral的服务,而DeepSeek的推理能力似乎与OpenAI相当。“如果OpenAI不降低价格,我认为许多开发者将在接下来的几个月转向DeepSeek,”奥斯曼说。
OpenAI不愿意发表评论。DeepSeek没有回应评论请求。
“这是一个意外的发现,”谷歌DeepMind首席执行官Demis Hassabis上周在达沃斯对彭博新闻说。“毫无疑问,这是一个令人印象深刻的系统。”但是,与行业中的其他人一样,Hassabis对DeepSeek模型的工作原理表示不确定,包括它在多大程度上依赖于其他西方模型。
与此同时,Altman告诉OpenAI的员工,他的初创公司正在努力理解DeepSeek的表现是否以及在多大程度上是通过提炼OpenAI模型的结果,即使用该公司的AI结果来训练一个不同的模型以获得类似的能力,还是代表独立的研究进展,依据一位熟悉此事的人士。
“即使这[提炼OpenAI模型]为他们节省了一些时间和金钱,我并不是说他们这样做了,显然在这篇论文中有很多真正的技术工作,人们可以自己去寻找并判断,”Miles Brundage说,他是一位最近离开OpenAI的独立AI政策研究员。
一些美国科技公司创始人和风险投资家对DeepSeek技术的实际价格也持怀疑态度。许多人,包括Brundage,质疑DeepSeek培训的560万美元的计算是否包括之前研究实验的成本,以及在图形处理单元投资中的固定成本,如数据中心的建设。
对于梁来说,成本和筹款并不是他主要的关注点。相反,梁在接受中国媒体36kr采访时表示,未来进展的障碍是美国对最佳芯片的访问限制。
“更多的投资不一定会导致更多的创新,”梁说。“否则,大公司将垄断所有的创新。”
新的竞争格局
在DeepSeek狂热的前几周,梁可能提到的一些大公司进一步展示了它们的财力。
亚马逊预计在2024年将花费约750亿美元用于资本支出,今年的支出更高,主要用于推动人工智能的技术基础设施,如芯片和数据中心。Meta表示将在2025年投资高达650亿美元用于与人工智能相关的项目。微软表示将在本财年花费800亿美元用于人工智能数据中心。
大型云计算公司的大部分支出都用于Nvidia的图形处理单元。亚马逊、谷歌和微软也在构建专为人工智能设计的定制芯片,BNP Paribas Exane的分析师斯特凡·斯洛温斯基在周一的一份研究报告中写道,如果开发者能够在不那么专业的硬件上构建和运行模型,这项工作在长期内可能会变得不那么有用。
云计算巨头们已经在应对投资者对其在人工智能上巨额投资回报的问题。例如,微软在将Copilot聊天机器人整合到其大部分产品线中时遇到了货币化的困难。另一方面,亚马逊在开发自己的大规模语言模型方面落后于主要竞争对手,同时将聊天机器人和其他人工智能工具纳入其零售和云计算业务。
亚马逊的工程师们一直在奥斯汀的安纳普尔纳实验室研发人工智能芯片。摄影师:塞尔吉奥·弗洛雷斯/彭博社无论如何,这两家公司的巨大投资可能在未来会有所回报。亚马逊寄希望于其作为最大租赁计算能力供应商的地位,帮助其在其他公司在亚马逊网络服务的服务器上训练和运行人工智能程序时蓬勃发展。根据伯恩斯坦社会集团的分析师马克·莫尔德勒的说法,微软更专注于构建运行人工智能模型的数据中心,而不是训练它们,他预计该公司的支出将在明年放缓。“我们认为他们主要是在构建推理能力,而不是训练能力,”他说。“如果这是正确的,我认为DeepSeek对微软来说不是问题。”
百万美元的问题是,美国大型科技公司是否会采纳DeepSeek的方法的一些方面。一些人工智能开发者表示,这家中国公司的成功可能会加速向更便宜、更高效的人工智能的进步,这将启动一种自然的进程,推动几乎所有重要技术进步,从芯片到智能手机。
“大型语言模型的未来属于那些专注于更高效技术的人,而不是更多的计算,”人工智能初创公司Cohere的首席执行官艾丹·戈麦斯表示。“我们对此深信不疑,但最终这一点正在整个行业得到认可。”
翻译由Malu Poveda编辑。
原始备注:DeepSeek颠覆了硅谷对AI成本的假设 (2)
更多西班牙语内容:
- 西班牙语的彭博社在LinkedIn
- 西班牙语的彭博社在YouTube上
- 在X上关注我们@BBGenEspanol
- 了解我们的WhatsApp频道
- 还有TikTok @bloombergenespanol