FONDO DeepSeek急于推出新模型,同时中国全力投入人工智能 | 路透社
Eduardo Baptista,Julie Zhu,Fanny Potkin
档案照片:Deepseek的标志出现在这张2025年1月27日拍摄的插图中。路透社/Dado Ruvic/插图/档案照片北京/香港/新加坡,2月25日(路透社) - DeepSeek希望发挥其优势,并正在加速推出1月份的R1模型的继任者,据三位熟悉该公司的人士透露。
这家中国公司上个月通过推出一种更便宜的人工智能推理模型,导致全球股票市场价值下降超过一万亿美元,超越了许多西方竞争对手。
总部位于杭州的Deepseek原计划在5月初推出R2,但现在希望尽快推出,两位知情人士表示,但没有提供具体细节。
该公司希望新模型能够更好地编码,并能够用除英语之外的其他语言进行推理。到目前为止,尚未有关于R2发布日程加速的报道。
DeepSeek未对此文章的评论请求作出回应。
竞争对手们仍在消化R1的影响,R1是用较不强大的Nvidia芯片构建的,但与美国科技巨头开发的成本高达数千亿美元的芯片竞争。
印度技术服务提供商Zensar的首席运营官Vijayasimha Alilughatta表示:“DeepSeek的R2模型发布可能是人工智能行业的一个关键时刻。” DeepSeek在创建经济实惠的人工智能模型方面的成功“可能会推动全球各地的公司加速自己的努力……打破这一领域少数主导参与者的垄断。”
R2可能会让美国政府感到担忧,因为他们已将人工智能的领导力视为国家优先事项。它的发布可能会进一步使中国的当局和企业受到影响,其中数十家声称已开始将DeepSeek模型整合到他们的产品中。
关于DeepSeek知之甚少,其创始人梁文峰通过其量化对冲基金High-Flyer成为亿万富翁。梁被前雇主形容为“低调和内向”,自2024年7月以来未与任何媒体交谈。
路透社采访了十多位前员工,以及了解DeepSeek及其母公司High-Flyer运营的量化基金专业人士。还审查了自2019年以来的国家媒体文章、企业社交媒体发布和研究文件。
证词讲述了一个公司的故事,该公司更像是一个研究实验室,而不是一家营利公司,并且不受中国高压科技行业的等级传统的约束,然而,它仍然成为许多投资者认为的人工智能最新突破的负责人。
不同的道路
梁于1985年出生在南方广东省的一个农村。后来,他在浙江大学获得了通信工程学位。
他早期的一个工作是领导一家上海智能影像公司的研究部门。他的当时老板周超恩在2月9日对国家媒体表示,梁聘请了获奖的算法工程师,并采用“扁平化管理风格”。
在DeepSeek和High-Flyer,Liang远离了中国科技巨头的做法,这些公司以其严格的等级管理、年轻员工的低工资和“996”工作制而闻名,即从早上9点到晚上9点,每周工作六天。
Liang在距离清华大学和北京大学不远的地方开设了他的北京办公室,这两所大学是中国最负盛名的教育机构。根据两位前员工的说法,他曾深入探讨技术细节,并乐于与Z世代的实习生和刚毕业的学生合作,他们构成了他团队的主要部分。他们还描述说,通常在一个合作的环境中工作八小时。
“Liang给了我们控制权,把我们当作专家。他不断问我们问题,并与我们一起学习,”26岁的研究员Benjamin Liu说,他在九月份离开了公司。“DeepSeek让我负责管道的关键部分,这非常令人兴奋。”
Liang没有回应通过DeepSeek发送的问题。
当百度和其他中国科技巨头在2023年急于构建其消费者版本的ChatGPT并利用全球人工智能的热潮时,Liang去年对中国媒体Waves表示,他故意避免在应用开发上花费过多,转而专注于提升人工智能模型的质量。
根据三位熟悉其薪酬实践的人士,DeepSeek和High-Flyer都以慷慨的薪酬而闻名。在High-Flyer,高级数据科学家年薪达到150万元并不罕见,而竞争对手很少支付超过80万元,一位了解Liang的竞争基金经理表示。
慷慨是由高飞者资助的,该基金成为中国最成功的量子基金之一,甚至在政府对该行业进行攻势之后,仍然管理着数千亿人民币,来自两位行业人士的消息。
计算能力
DeepSeek在低成本AI模型上的成功,基于高飞者在过去十年中对研究和计算能力的重要投资,三位人士表示。
该量子基金是最早在AI交易中开拓的先驱之一,一位高管在2020年表示,高飞者在AI方面“全力以赴”,将70%的收入再投资,主要用于AI研究。
高飞者在2020年和2021年花费了12亿人民币用于两个AI超级计算集群。第二个集群,Fire-Flyer II,由大约10,000个Nvidia A100芯片组成,用于训练AI模型。
在那时,DeepSeek尚未成立,因此计算能力的积累引起了中国证券监管机构的注意,一位了解官员思维的人士表示。
“监管机构想知道他们为什么需要这么多芯片,”该人士说。“他们打算如何使用这些芯片?这对市场会产生什么影响?”
当局决定不进行干预,这一举动对DeepSeek的命运至关重要:美国在2022年禁止向中国出口A100芯片,而此时Fire-Flyer II已经投入使用。
北京现在正在庆祝DeepSeek,但根据一位熟悉中国官方程序的人士的说法,已命令其在未经批准的情况下不要与媒体接触。
当局曾要求梁保持低调,因为他们担心媒体的过度宣传会引起不必要的关注,这位人士表示。
中国内阁和商务部,以及中国证券监管机构,没有回应评论请求。
作为少数拥有大型A100集群的公司之一,High-Flyer和DeepSeek能够吸引到一些中国顶尖的研究人才,两位前员工表示。
“大型资源(计算)的主要优势在于它们允许大规模实验,”一位前员工刘说。
一些西方AI企业家,如Scale AI的首席执行官Alexandr Wang,声称DeepSeek拥有多达50,000个高端Nvidia芯片,而这些芯片的出口到中国是被禁止的。Wang并没有提供其主张的证据,也没有回应路透社的请求以提供这些证据。
DeepSeek没有回应Wang的指控。两位前员工将公司的成功归因于梁专注于更具成本效益的AI架构。
- 建议主题:
- 科技