中国人工智能产业蓬勃发展之际,深度求索(DeepSeek)加速追赶ChatGPT——彭博社
bloomberg
深度求索创始人梁文峰二月在北京与习近平主席会面。
摄影:Florence Lo/路透社身形清瘦、作风低调的梁文峰在会议中常显得腼腆甚至紧张。这位近期撼动人工智能领域的中国初创企业深度求索的创始人,说话时常有迟疑和长久的沉默。但新员工很快就会发现,不能将他安静的沉思误认为胆怯。当梁文峰消化讨论中的精微之处后,便会提出关于模型架构、计算成本及AI系统其他复杂环节的精准发问,令人难以招架。
员工们称梁文峰为老板——这是中国对商业上级常见的尊称。不寻常的是,这位老板会大力授权年轻研究员甚至实习生主导重大实验项目,习惯性地驻足工位了解进展,并推动他们探索非传统的工程路径。对话的技术含量越高越好,特别是能带来实际性能提升的讨论——梁文峰常亲自在内部飞书频道同步这些里程碑成果。“他是个真正的技术狂,“一位深度求索前员工表示(与本文多数受访者一样要求匿名,因其未获公司公开表态授权),“有时我觉得他比研究员更懂研究。”
梁和他的年轻公司在1月份突然跃升为国际焦点,当时它发布了R1,一个给人爆炸性突破感觉的AI模型。R1在多个用于评估AI性能的标准化测试中击败了占主导地位的西方参与者,而深度求索声称其基础模型的构建成本仅为GPT-4预估成本的5%左右,后者是支撑OpenAI的ChatGPT的模型。
测试结果引发了美国市场1万亿美元的抛售,并引发了关于美国利用出口管制减缓中国AI进展战略的棘手问题。亚马逊和微软争相将深度求索的模型加入其云服务产品,与Meta和Mistral AI的竞争对手并列。“基本上在一个周末内,对深度求索的兴趣激增,以至于我们立即采取了行动,”负责亚马逊公司语言模型市场的阿图尔·德奥说道。
深度求索澄清了美国人观察中国AI场景的模糊窗口:笼罩在神秘之中,更容易被视为夸大的幽灵而被忽视,但很可能比他们愿意承认的更令人畏惧。在这家初创公司出现之前,许多美国公司和政策制定者持有一种令人安慰的观点,认为中国仍大幅落后于硅谷,给他们时间准备最终的平等或阻止中国达到这一水平。
美国主导AI投资…
人工智能领域的私人投资
来源:Quid,斯坦福大学AI指数编制
现实情况是,深度求索所在的杭州和其他中国高科技中心已经涌现出许多被称为"AI小巨龙"的初创企业。本土初创公司如MiniMax和月之暗面开发的复杂聊天机器人迅速走红,包括在美国市场。阿里巴巴集团控股有限公司的Qwen大语言模型系列在谷歌和Anthropic的LLM排行榜上 consistently 名列前茅;百度公司首席执行官李彦宏在四月份夸口称,这家搜索巨头可以开发出与深度求索相媲美但更便宜的模型,这要归功于其采用自研芯片组装的新型超级计算机。华为技术有限公司同样因其设计用于对抗英伟达公司设备的产品而赢得赞誉,后者的图形处理单元(GPU)为美国和欧洲最先进的人工智能模型提供动力。
…但中国技术正在迎头赶上
顶级AI模型在LMSYS Chatbot Arena上的性能评估
来源:LMSYS,斯坦福大学AI指数编制
注:Chatbot Arena是由LMArena研究人员开发的通过人类偏好评估AI的开源平台
就在不久前,中国共产党还在对被视为失控的科技行业进行限制。反垄断调查和数据合规审查启动,阿里巴巴联合创始人马云等知名人士淡出公众视野,社交媒体、零工经济和游戏应用也面临新规约束。如今面对外部干扰,中共正全力扶持本土科技产业。习近平主席正调集资源投向人工智能和半导体领域,激励中国高技能人才,呼吁建立"自主可控、协同发展"的软硬件生态系统。
具有讽刺意味的是,推动中国近期突破的正是那些旨在遏制其AI发展的地缘政治限制。Counterpoint科技市场研究分析师孙伟表示,中美AI差距现在以月而非年计。“中国拥有集体主义精神和高强度工作的意愿,这造就了执行力的优势,“孙伟指出,英伟达芯片的强制稀缺反而催生了新型AI创新。“这种态势形成了一种达尔文式压力:生存属于那些能用更少资源做更多事的人。”
在中国看到创新的地方,美国仍有许多人怀疑存在不当行为。众议院两党委员会四月报告指控深度求索与中国政府存在"重大"关联,称其非法窃取OpenAI数据,对美国国家安全构成"深远威胁”。Anthropic公司CEO达里奥·阿莫代伊在一篇3400字博文中呼吁加强出口管制,坚称深度求索必定走私了大量英伟达GPU,包括最先进的H100芯片。(彭博社近期报道称美国官方正在调查深度求索是否通过新加坡第三方购买禁运芯片以规避出口限制。)
Anthropic公司CEO达里奥·阿莫代伊以深度求索(DeepSeek)为例,主张加强对华芯片出口管制。摄影:Chesnot/Getty Images中国驻美使馆驳斥众议院委员会的说法"毫无根据”。英伟达表示深度求索的芯片符合出口规定,更多限制反而可能利好中国半导体产业。这家芯片制造商发言人指出,迫使深度求索使用更多中国芯片和服务将"助力华为及外国AI基础设施供应商”。
处于舆论中心的深度求索公司仍笼罩着神秘面纱。该公司以开源AI技术为荣,却对其内部运作和真实意图讳莫如深。其研究论文会披露极其专业的技术细节,却拒绝透露构建AI的总成本、现有GPU配置或数据来源等基本信息。
“我们无从知晓深度求索的真实动机,它就像个黑匣子”
梁军(注:此处保留英文名Liang未译)素以孤僻著称,中国AI业界领袖私下称其为"科技狂人”——这个绰号通常用于形容特立独行且野心勃勃的企业家。过去十个月他未接受任何媒体采访,直到近期与李克强总理的会议照片流出,人们才得以一睹这位戴着眼镜、面容稚嫩的创始人真容。对于本文的多次采访请求,梁军及其团队仅通过员工自动回复邮件表示"感谢对深度求索的关注与支持",称"问询正在处理中"。
梁在一月。来源:祖玛通讯社为了进一步了解该公司如何运作以及它如何融入国家更广泛的人工智能雄心,彭博商业周刊采访了梁的11名前员工,以及三十多位分析师、风险投资家和接近中国人工智能行业的高管。
缺乏公开露面让像阿莫代伊和OpenAI负责人萨姆·奥尔特曼这样的批评者有机会用诽谤来填补空白,这些言论在美国观众中引起了共鸣,他们倾向于将中国技术视为一种阴暗的威胁。但即使是那些仍然对DeepSeek持谨慎态度的人,也不得不面对其人工智能不可否认的强大能力。Perplexity AI Inc.的首席商务官德米特里·舍维连科表示,他的公司(生产一款人工智能驱动的搜索产品)没有一个人成功与DeepSeek的任何同行进行过沟通。尽管如此,Perplexity还是采用了DeepSeek的技术,仅将其托管在美国和欧洲的服务器上,并在训练后移除任何显示中共审查的数据集。Perplexity将其命名为R1 1776(参考美国成立的年份),舍维连科称这是对自由的致敬。“我们不知道DeepSeek的真正动机是什么,”他说,“这有点像是一个黑匣子。”
DeepSeek曾预见到其人工智能可能会在国外引起担忧。在2024年3月英伟达开发者大会上一次被忽视的虚拟演讲中,DeepSeek的深度学习研究员陈德立谈到了价值观应如何与大型语言模型“解耦”并适应不同社会。在一个冷静逻辑的幻灯片中,陈展示了一个DeepSeek原型,用于定制由不同背景人群使用的聊天机器人内置的道德标准。通过快速点击按钮,开发者可以设置赌博、安乐死、性工作、枪支所有权、大麻和代孕等问题的合法性。“他们只需要选择符合他们需求的选项,然后就能享受到专门根据他们的价值观量身定制的模型服务,”陈解释道。
寻找这类高效解决方案一直是深度求索的企业文化常态。梁先生与他的朋友们在2000年代中期就读于浙江大学,研习机器学习、信号处理、电子工程等多个技术领域——显然既为兴趣(当然也为了赚钱),他们在全球金融危机期间开发了股票交易程序。
毕业后,梁先生继续独立开发量化交易系统,积累了一定财富后与几位大学同窗在杭州联手,于2015年创立了后来声名鹊起的高飞量化。
早期招聘启事自豪地宣称从谷歌和脸书挖来顶尖人才,并寻求具有《生活大爆炸》中谢尔顿那种"古怪天才"特质的数学与编程"极客"。他们承诺提供免费零食、赫曼米勒人体工学椅、扑克之夜、允许穿T恤拖鞋的宽松办公文化,还带着几分金融科技兄弟会的调性,宣称能与"90后温柔可爱的姑娘们"和"从华尔街归来的犀利女神"共事。
深度求索北京办公室摄影师:彼得·卡特罗尔/法新社/盖蒂图片社与后来的深度求索如出一辙,高飞量化刻意营造神秘感——其首篇社交媒体帖仅以"L先生"称呼创始人——同时践行"用实力说话"的透明原则。每周五,高飞量化都会在中国超级应用微信上公布旗下10支创始基金的业绩图表。在2016年夏季改为仅向注册投资者披露周度数据前,其投资组合年均回报率高达35%。
最终,数十亿美元资金流入高飞资本的资产组合,其投资研究团队也扩充至逾百人。2019年,梁开始全力筹建人工智能部门,旨在通过挖掘海量数据集来发现被低估的股票、捕捉高频交易的微小价格波动以及行业投资者忽视的宏观趋势。到新冠疫情爆发初期,他和团队已构建出由协同运行的互联处理器组成的高性能计算系统——这种架构被称为集群。高飞资本宣称,该集群配备了1000块英伟达2080Ti芯片(游戏玩家和3D设计师常用型号)及额外100块Volta系列GPU(Volta即V100,是英伟达首款专为AI优化的处理器)。此前高飞资本的小型计算架构需要两个月训练新经济分析模型,而新设备处理相同任务仅需不到四天。
这些金融模型虽令人瞩目,但规模远小于OpenAI等美国机构正在构建的通用模型。梁力主建造由英伟达当时新推出的A100 GPU(V100的升级版)组成的超大规模超级计算机。参与该项目的高飞前工程师透露,梁是这台不断扩容的集群"最大单一用户",估计80%用于模型开发的算力都分配在其用户名下。这位前工程师表示,梁似乎对深度学习极为痴迷,称其为"他昂贵的爱好"。对量化公司而言,投入数亿美元建设此类AI基础设施或许大材小用,但梁创造的利润足以轻松承担。“对当时的梁来说只是小钱,“工程师回忆道,“算力越强,模型越优,交易收益越高。”
至少这是当初的愿景。当时管理着约141亿美元资产的High‑Flyer,在2021年12月给利益相关者的信中为连串令人失望的回报道歉。该公司将业绩下滑归咎于其AI系统,称这些系统虽能选出优质股票,却未能在疫情期间的市场波动中精准把握卖出时机。即便如此,他们决定对AI加码豪赌:2022年1月,High-Flyer在社交媒体宣布已囤积5000块英伟达A100芯片(每块通常价值数万美元)。同年3月,其集群规模扩大至1万块——仅仅六个月后,英伟达就警告美国新规可能影响此类芯片对华出口。
尚不清楚这些基础设施中有多少真正用于量化交易,又有多少投入了梁的烧钱爱好。次年春天,在OpenAI推出ChatGPT约五个月后,他将深度求索(DeepSeek)拆分成为独立实验室。位于杭州和北京的办公场所不再聚焦金融业务。在一份充满陈词滥调的未署名宣言中,High-Flyer誓言要拒绝平庸,攻克AI革命中最艰巨的挑战。其终极目标是:人工通用智能。
本文刊登于2025年6月*《彭博商业周刊》*。立即订阅。插图:7312023年全年,深度求索实验室争分夺秒地开发AI编程助手、通用知识聊天机器人及文本转3D艺术生成器。梁从High-Flyer调来工程师,又从微软北京办公室及中国头部科技企业和高校招募更多人才。9月以学生研究员身份加入(后攻读博士学位)的刘博(Benjamin)回忆,梁常将其他公司会交给资深员工的关键任务派给实习生。“以我为例:入职时没人负责RLHF基础设施(支持人类反馈强化学习技术的关键架构),他就直接交给我做。“刘博说,“他敢让你尝试无人涉足的领域。"(这种信任还给深度求索带来额外优势:实习生日薪140美元外加420美元住房补贴,这待遇在中国很优厚,但仅为美国AI公司实习生收入的三分之一,与硅谷全职工程师薪资更是相差甚远。)
据两位前深度求索研究员透露,梁氏很早就对稀疏化技术下了重注——这种通过将大语言模型拆分为专业模块来提升训练和运行效率的技术。当你向初代ChatGPT提问时,无论问题是"2+2等于几"还是"派的做法”,其整个大模型都会激活来寻找最佳答案。相比之下,稀疏模型会将资源划分为多个"专家"模块,仅针对特定指令激活相关模块,从而更高效地利用资源。
稀疏化方法能大幅节省算力成本,但实现难度极高。如果问题未能激活足够的神经回路或被错误分配到功能模块,回答质量就会下降(例如数学模块知道如何在公式中使用圆周率π,却不清楚苹果派的配方)。梁注意到谷歌和法国独角兽Mistral在该领域的进展——后者于2023年12月发布的稀疏模型已实现八个专家模块架构,能根据语境自动激活两个最相关模块。他随即带领团队设计更多专家模块的模型,但这种技术可能加剧AI幻觉效应并导致知识碎片化。“这在内部引发了激烈争论,“前深度求索员工透露。
随着后续突破不断公开,中国同行开始密切关注。2024年末,深度求索发布V3模型,这个通用AI模型的参数量比当时最大的开源大模型——Meta公司同类产品还多出约65%。但真正让谷歌、OpenAI和微软高管震惊的,是在R1推理模型引发广泛关注前一个月发布的V3技术论文。其中一项数据令人瞠目:深度求索暗示V3总开发成本仅560万美元。这个数字可能仅指最终训练阶段(将模型原型转化为成品的优化过程),但多数人认为这对整个项目而言低得离谱。相比之下,前沿模型的累计训练成本常超1亿美元。Anthropic公司CEO阿莫迪(在深度求索崛起前)甚至预测新一代模型的训练成本将达100-1000亿美元。
广受欢迎的AI平台Hugging Face公司研究主管莱安德罗·冯·韦拉表示,DeepSeek的"架构创新"并非其模型最突出的特点。该公司负责大语言模型排名,他认为从研究论文中最大的发现是,该公司必定开发了高质量数据——无论是从网络巧妙清理还是通过其他方式提取——才使V3得以问世。“没有非常强大的数据集,模型就会缺乏性能,“冯·韦拉说。“报告清楚地表明,DeepSeek拥有目前最优秀的大语言模型训练数据集之一。可惜报告在50页中仅用半页篇幅描述数据集。”
DeepSeek展现出快速进步,因为梁家恩将开源精神视为其理念的核心。他认为,像OpenAI和谷歌等美国顶级实验室那样隐藏专有技术并对强大模型收费,是以短期优势牺牲更持久的成功。将模型完全公开且基本免费,是DeepSeek加速技术采用、让初创企业和研究人员在其技术上构建的最有效方式。希望这将形成产品消费和反馈的良性循环。正如DeepSeek近两年前在首个公开大语言模型公告中引用开源操作系统Linux发明者的话:“空谈无益,给我看代码。”
“基本上他们并不缺钱。随着‘六小龙’的热炒,人们正争相向他们砸钱”
四月一个阴沉的周日,在杭州繁忙的萧山国际机场,阿里巴巴、字节跳动和华为宣传AI服务的数字广告牌迎接着抵达的乘客。航站楼内,一个蓝发人形机器人挥手向旅客致意。停机坪上,一家自动驾驶初创公司正在测试用于货物转运的小型无人卡车。尽管深度求索声名鹊起,西方人似乎忘了它只是中国众多“硅谷”中崛起的AI巨龙之一。仅在拥有1250万人口的超大城市杭州,深度求索就属于一个被称为“六小龙”的精英科技初创企业群体。
在风景如画的西湖区,有因使用机器学习技术让游戏角色更逼真而备受赞誉的热销动作游戏《黑神话:悟空》背后的爆红工作室游戏科学。不远处坐落着两家机器人巨头和一家专注3D空间软件的独角兽企业。同处附近的浙江强脑科技(BrainCo)堪称中国版Neuralink,其前身是中国籍博士韩璧丞在哈佛大学孵化的项目,如今正在杭州附属实验室开发脑控电脑技术的仿生肢体。BrainCo的一款AI智能义肢目前正于杭州另一新兴科技地标——中国人工智能小镇展览中心展出。
据一位参与活动的人士透露,最近几周,BrainCo的领导人一直在展览中带领参观。参观者往往有意投资,但这些科技精英显然对外部资本并未表现出迫切需求。“基本上他们并不缺钱,“一位参与参观的基金经理表示,“随着’六小龙’概念的热炒,人们正争相向他们投钱。”
静静站在这些初创企业背后的是习近平主席领导的政府。据中国官方报道,生成式人工智能、机器人技术和其他高科技抱负正推动着国家议程,习近平在最近的政治局会议上强调,首要目标是实现国内"自立自强”。“我们必须认清差距,加倍努力全面推进技术创新、产业发展和人工智能赋能应用。”
这些"龙"企业正在倾听,而且并非都那么"小”。市值3000亿美元的阿里巴巴集团主园区坐落于杭州西湖以西约40分钟车程的区域,这片广阔的园区内甚至拥有专属湖泊。该公司近期承诺未来三年将投入530亿美元建设更多AI数据中心,并宣称其最新通义千问3.0旗舰模型的性能与成本效益已媲美深度求索。在国际视野中,阿里巴巴通常被视为电商企业,但其增长更快的AI和云业务已于2022年拆分至杭州郊区的独立总部。会议室里的大屏幕每72小时更新的"行业洞察快报”,详细记录着深度求索、OpenAI等竞争对手的最新成果。就连洗手间也设有每周更新的版本,提醒着科技工作者:即便在如厕时刻,AI竞赛也从未停歇。
今年四月,几乎在五年前中共打压中国科技行业期间销声匿迹的阿里巴巴联合创始人马云,重新出现在公司园区,庆祝其云计算部门成立15周年。据几位目击者称,马云在这场罕见的演讲中表示,他希望人工智能服务于人类,而非凌驾于人类之上。通过香港和东京办公室观看直播的与会者表示,他们对马云的成功回归感到振奋。
这提醒人们,像马云这样的科技明星显然重新获得了中共的青睐——并与梁等后起之秀一起——尽管美国科技领袖的光环正在褪去。中国国内日益高涨的民族自豪感,正迫切希望展示其能够克服西方设置的障碍。总部位于香港的政策咨询公司亚洲集团董事总经理陈乔治表示,中国顶尖工程师在苹果、谷歌、微软等领先美国公司工作一段时间后,已开始回国。虽然特朗普政府的敌意是部分原因,但他们也被一种感觉所吸引,即真正的行动可能正在向东方转移。“硅谷对中国人才来说不再是一个有吸引力的工作地点,”陈说。
另一家中国独角兽公司01.AI的创始人李开复更进一步。作为苹果、谷歌和微软的老将,李开复表示,新一代人才不再像他那样先在美国公司工作,然后在中国创立自己的公司。“这些年轻的AI工程师大多是本土培养的,”他说。“深度求索的成功,以及其他新兴AI初创企业的成功,正在激励更多年轻人才成为中国AI复兴的一部分。”
梁(中)出席2月在北京举行的研讨会。摄影师:Florence Lo/路透社当今中国没有哪家科技公司能像深度求索这样激发如此强烈的自豪感。4月,27岁的加拿大计算机科学家柯比·冯(Kirby Fung)携家人游览杭州时,特意带他们参观了梁的母校浙江大学。冯曾在该校交换学习,他想向祖父母和弟弟展示自己与梁同校的经历。“能告诉加拿大的朋友们深度求索的创始人是我校友,这感觉太酷了,“冯说道。
游客和网红博主们经常造访深度求索总部——这座由四栋大厦组成的建筑群毗邻著名的京杭大运河。游客们会在周边商铺寻找梁的踪迹,包括深度求索大厦内一家员工常去的高档火锅店。(前台不得不反复告知:他从未光顾过。)
熟悉梁的人透露,他常往返于杭州和北京办公室之间。北京办公室位于科技园区玻璃幕墙大厦的五层,二十多岁的程序员们在可升降办公桌前埋头编码,茶水间堆满能量饮料、康师傅方便面和辣条。白板上写满了员工加餐的需求。“在那儿吃了几个月午晚餐,我都胖了,“一位近期离职的研究员说。
梁极少接见外人,即便同意会面有时也以全息投影形式出现。他婉拒了参加今年极具影响力的巴黎AI行动峰会的邀请,这场活动吸引了OpenAI的奥尔特曼、Alphabet兼谷歌CEO皮查伊以及多位国家元首出席。
当中国为深度求索(DeepSeek)欢呼时,美国却将其视为水源中突然出现的陌生有机体,反复检测其属性是良性还是恶性。批评者指控该公司受中共操控,窃取美国竞争对手的训练数据,并参与某种旨在颠覆硅谷AI霸权的大型间谍行动或心理战。“深度求索是将美国科技业直接输送给中共监控国家的管道,不仅威胁美国公民隐私,更危害国家安全,“美国国会调查深度求索委员会的发言人表示。
然而深度求索将自己定位为与任何热门初创企业无异——其在2月的X平台发文中自称是"纯粹车库能量"“的产物。毕竟它与谷歌共处北京同一园区,距离汉堡王和两家提姆霍顿斯咖啡仅咫尺之遥。AI业界此前未重点关注深度求索,并不意味着幕后存在可疑操作。“AI界低估了深度求索,“投资过OpenAI和商汤科技的风投公司Alpha Intelligence Capital合伙人阿诺·巴泰勒米表示,“他们本该更警惕。”
巴泰勒米指出,深度求索带来的真正启示在于中国科技公司如何巧妙将运营限制转化为优势。“中国有大量人才能用低得多的算力实现卓越创新,“他评价道。
确实,在2023年5月——恰逢深度求索公司成立的同月,英伟达CEO黄仁勋向《商业周刊》表示,美国对中国的过度管制只会激励后者通过创新突破阻碍。他将经济影响力描述为国家安全的有效工具,并强调政府干预带来的意外后果将十分严重。“失去科技行业三分之一的市场无疑是灾难性的,“他谈到限制对华技术出口的风险时说,“他们将在没有竞争的情况下蓬勃发展。他们会壮大起来,并将技术出口到欧洲、东南亚。”
“必须警惕竞争推进的边界,“黄仁勋继续指出,“突然之间,对方的反应会变得难以预测。一无所有的人往往会做出令人震惊的反击。”
英伟达黄仁勋认为出口管制最终可能强化中国实力。摄影师:David Paul Morris/彭博社关于深度求索的关键争议点在于其模型研发的实际投入。美国研究机构SemiAnalysis在广为引用的报告中估算,高瓴资本与深度求索可能拥有约5万块英伟达顶级H系列GPU组成的计算集群,价值14亿美元,这些资源大多未对外公开。该机构表示,其中大部分是符合出口管制要求的GPU(美国政府允许英伟达向中国出售经过性能限制的H20和H800芯片以符合白宫规定),但该咨询公司同时声称深度求索还额外获取了1万块被美国政府禁售的尖端H100芯片。
三位前员工强烈否认这些说法,称深度求索实际拥有的GPU不足2万块,且多为英伟达旧款芯片及受出口管制的型号。“他们在散布谎言,“博士生刘波如此评价SemiAnalysis的报告。该研究机构则表示坚持其结论。
毋庸置疑的是,深度求索必然渴望获得美国科技公司级别的算力规模。该公司似乎自信能比硅谷更高效利用这些资源。“现实情况是,大语言模型研究者对计算资源有着巨大胃口——如果我手头有几万块H系列GPU,可能也会变得奢侈,开展许多并非绝对必要的实验,“一位前深度求索员工坦言。但获取更多资源正是中国科技从业者愿意应对的挑战。“希望有朝一日我们中国企业能拥有五万块GPU,“这位已加入北京某开源AI实验室的研究者说,“想看看我们能创造什么奇迹吗?” ——奥斯汀·卡尔*、萨里塔·拉伊与黄哲平,丁璐、车克莱尔、马特·戴及**杰基·达瓦洛斯*联合报道