DeepSeek急于推出新AI模型,因为中国全力以赴 | 路透社
Eduardo Baptista,Julie Zhu,Fanny Potkin
Deepseek的标志在2025年1月27日拍摄的插图中可见。路透社/Dado Ruvic/插图/档案照片北京/香港/新加坡,2月25日(路透社) - DeepSeek正寻求巩固其优势。
这家中国初创公司上个月以低价AI推理模型引发了全球股票市场超过1万亿美元的抛售,该模型的表现超过了许多西方竞争对手。
路透社每日简报通讯提供您开始一天所需的所有新闻。注册这里。
现在,这家总部位于杭州的公司正在加速推出1月份R1模型的继任者,据三位熟悉该公司的人士透露。Deepseek原计划在5月初发布R2,但现在希望尽早推出,两位人士表示,未提供具体细节。
该公司表示,希望新模型能够生成更好的编码,并能够使用英语以外的语言进行推理。关于R2发布加速时间表的细节尚未被报道。
DeepSeek未对此报道请求作出回应。
竞争对手仍在消化R1的影响,R1是使用较不强大的Nvidia芯片构建的,但与美国科技巨头花费数千亿美元开发的芯片具有竞争力。
“DeepSeek的R2模型的发布可能是AI行业的一个关键时刻,”印度科技服务提供商Zensar的首席运营官Vijayasimha Alilughatta表示。DeepSeek在创建具有成本效益的AI模型方面的成功“可能会促使全球公司加速自己的努力……打破该领域少数主导玩家的控制,”他说。
R2 是可能会让美国政府感到担忧,后者已将人工智能的领导地位视为国家优先事项。它的发布可能进一步激励中国当局和公司,其中数十家公司表示他们已经开始将 DeepSeek 模型整合到他们的产品中。关于 DeepSeek 的信息很少,其创始人梁文峰通过他的量化对冲基金 High-Flyer 成为亿万富翁。梁被前雇主形容为“低调和内向”,自 2024 年 7 月以来没有与任何媒体交谈。路透社采访了十多位前员工,以及对 DeepSeek 及其母公司 High-Flyer 的运营了解的量化基金专业人士。它还审查了国家媒体文章、公司的社交媒体帖子以及追溯到 2019 年的研究论文。
他们讲述了一个公司的故事,该公司更像是一个研究实验室,而不是一个营利性企业,并且不受中国高压科技行业的等级传统的束缚,即使它变得对许多投资者所认为的人工智能最新突破负责。
不同的道路
梁于 1985 年出生在广东省的一个农村村庄。他后来在精英的浙江大学获得了通信工程学位。
他的第一份工作之一是在上海的一家智能成像公司负责一个研究部门。他的当时老板周超恩在 2 月 9 日对国家媒体表示,梁聘请了获奖的算法工程师,并以“扁平化管理风格”运作。
在DeepSeek和High-Flyer,梁同样避开了中国科技巨头以自上而下的管理、对年轻员工低薪以及“996”——每周六天从早上9点工作到晚上9点的做法。
梁在距离清华大学和北京大学这两所中国最负盛名的教育机构步行可达的地方开设了他的北京办公室。根据两位前员工的说法,他经常深入技术细节,并乐于与构成其大部分劳动力的Z世代实习生和应届毕业生一起工作。他们还描述了通常在协作氛围中工作八小时的情况。
26岁的研究员刘本杰表示:“梁给了我们控制权,把我们当作专家。他不断提问,并与我们一起学习。”刘在九月份离开了公司。“DeepSeek让我能够掌控管道的关键部分,这非常令人兴奋。”
梁没有回应通过DeepSeek发送的问题。
在2023年,百度和其他中国科技巨头竞相构建面向消费者的ChatGPT版本,并从全球人工智能热潮中获利时,梁去年告诉中国媒体《波浪》说,他故意避免在应用开发上大量花费,而是专注于提升人工智能模型的质量。
根据三位熟悉其薪酬做法的人士,DeepSeek和High-Flyer都以慷慨的薪酬而闻名。在High-Flyer,一位高级数据科学家年薪达到150万元并不罕见,而竞争对手很少支付超过80万元,一位了解梁的竞争对手量化基金经理表示。
这笔慷慨的资金由高飞者提供,该基金成为中国最成功的量化基金之一,即使在政府对该行业的打压之后,仍然管理着数百亿人民币,来自行业内的两位人士表示。## 计算能力
DeepSeek在低成本AI模型上的成功基于高飞者十年来在研究和计算能力上的大量投资,三位人士表示。
该量化基金是AI交易的早期先驱,2020年一位高管表示高飞者将“全力以赴”投入AI,重新投资70%的收入,主要用于AI研究。
高飞者在2020年和2021年花费了12亿元人民币用于两个超级计算AI集群。第二个集群,火飞者II,由大约10,000个Nvidia A100芯片组成,用于训练AI模型。
当时DeepSeek尚未成立,因此计算能力的积累引起了中国证券监管机构的注意,一位了解官员思维的人士表示。
“监管机构想知道他们为什么需要这么多芯片?”该人士说。“他们打算如何使用它?这将对市场产生什么影响?”
当局决定不进行干预,这一举动对DeepSeek的命运至关重要:美国在2022年禁止向中国出口A100芯片,而此时火飞者II已经在运行。
北京现在庆祝DeepSeek,但根据一位熟悉中国官方思维的人士的说法,已指示其在未经批准的情况下不与媒体接触。
当局曾要求梁保持低调,因为他们担心媒体的过度炒作会引起不必要的关注,这位人士表示。
中国的内阁和商务部,以及中国的证券监管机构,没有回应评论请求。
作为少数拥有大型A100集群的公司之一,高飞和深寻能够吸引到中国一些最优秀的研究人才,两位前员工表示。
“庞大(计算)资源的关键优势在于它允许进行大规模实验,”前员工刘说。
一些西方人工智能企业家,如Scale AI首席执行官亚历山大·王,声称深寻拥有多达50,000个被禁止出口到中国的高端英伟达芯片。他没有提供该指控的证据,也没有回应路透社提供证据的请求。
深寻没有回应王的指控。两位前员工将公司的成功归因于梁对 更具成本效益的人工智能架构的关注。该初创公司使用了混合专家(MoE)和多头潜在注意力(MLA)等技术,这些技术的计算成本要低得多,其研究论文显示。
MoE技术将人工智能模型划分为不同的专业领域,仅激活与查询相关的部分,而不是使用整个模型的更常见架构。
MLA架构允许模型同时处理一条信息的不同方面,帮助其更有效地检测关键细节。
虽然像法国的Mistral这样的竞争对手已经开发了基于MoE的模型,但DeepSeek是第一家在实现与更昂贵的模型平价的同时,严重依赖这种架构的公司。
分析师在2月初估计,DeepSeek的定价比OpenAI对等模型的收费便宜20到40倍。
目前,西方和中国的科技巨头已表示计划继续大规模投资人工智能,但DeepSeek在R1及其早期V3模型上的成功促使一些公司改变策略。
OpenAI本月降价,而谷歌的Gemini已推出折扣访问层级。自R1发布以来,OpenAI还推出了一款依赖于更少计算能力的O3-Mini模型。美国科技服务提供商UST的Adnan Masood告诉路透社,他的实验室进行了基准测试,发现R1在推理时通常使用的令牌数量,即AI模型处理的数据单位,是OpenAI缩减模型的三倍。
国家拥抱
即使在R1引起全球关注之前,就有迹象表明DeepSeek已经赢得了北京的青睐。1月,国家媒体报道,梁作为AI行业的指定代表参加了与中国总理李强在北京的会议,领先于其他更知名公司的领导人。
其模型的成本竞争力随之引发的热潮增强了北京的信心,认为它可以在创新上超越美国,中国公司和政府机构以未曾给予其他公司的速度接受DeepSeek模型。
至少有13个中国城市政府和10家国有能源公司表示他们已将DeepSeek部署到他们的系统中,而科技巨头联想(0992.HK)、百度(9888.HK)和腾讯(0700.HK) - 中国最大的社交媒体应用微信的拥有者 - 已将DeepSeek的模型整合到他们的产品中。新加坡李光耀公共政策学院的中国政策专家阿尔弗雷德·吴表示:“中国领导人习近平和李‘已经表示他们支持DeepSeek’。‘现在每个人都支持它。’”
中国的拥抱正值从韩国到意大利的政府因隐私问题将DeepSeek从国家应用商店中移除。
AI专家、对冲基金卡尔塔基资本创始人斯蒂芬·吴表示:“如果DeepSeek成为中国国家实体的首选AI模型,西方监管机构可能会将此视为进一步升级对AI芯片或软件合作限制的理由。”
梁承认,进一步限制先进AI芯片是一个挑战。
他在七月对Waves表示:“我们的问题从来不是资金。‘而是对高端芯片的禁运。’”
- 建议主题:
- 董事会、政策与监管