DeepSeek R1是什么?中国的AI模型与OpenAI和Meta相比如何? - 彭博社
Saritha Rai, Newley Purnell
DeepSeek 应用程序的图标。
摄影师:Lam Yik/BloombergDeepSeek 是一家成立刚满一年的人工智能初创公司,以其突破性的人工智能模型在硅谷引起了惊叹和忧虑,该模型在成本上似乎仅需一小部分便能提供与世界最佳聊天机器人相当的性能。DeepSeek 在中国杭州创建,对全球科技行业和供应链具有深远的影响,提供了对普遍认为人工智能的未来将需要不断增加的电力和能源来发展的观点的反驳。
DeepSeek 到底是什么?
DeepSeek 是一家由量化对冲基金 High-Flyer 的首席执行官梁文峰于 2023 年创立的中国初创公司。该公司开发开源人工智能模型,其同名移动应用在 1 月初发布后迅速攀升至美国 iPhone 下载榜首。
DeepSeek 应用程序通过在回应提示之前阐明其推理,与其他聊天机器人如 OpenAI 的 ChatGPT 区分开来。该公司 声称其 R1 版本的性能与 OpenAI 最新版本相当,并已授予有意在该技术上开发聊天机器人的个人构建的许可。
DeepSeek R1 与 OpenAI 或 Meta AI 的比较如何?
尽管公司没有详细说明,但训练和开发DeepSeek模型的成本似乎仅占OpenAI或Meta Platforms Inc.最佳产品所需成本的一小部分。该模型的效率大大提高,使得对从Nvidia Corp.等公司获取最新和最强大的AI加速器所需的大量资本支出产生了质疑。这也加大了对美国对中国出口此类先进半导体限制的关注——这些限制旨在防止DeepSeek似乎代表的那种突破。
DeepSeek R1在多个领先基准测试中接近或优于竞争对手模型,例如AIME 2024的数学任务、MMLU的一般知识和AlpacaEval 2.0的问答表现。它在一个名为Chatbot Arena的与UC伯克利相关的排行榜上也名列前茅。
美国的警报是什么?
华盛顿已禁止向中国出口高端技术,如GPU半导体,以阻止该国在AI领域的进展,这是美国与中国在技术霸权竞争中的关键前沿。但DeepSeek的进展表明,中国的AI工程师已经绕过了这些限制,专注于在有限资源下实现更高的效率。虽然尚不清楚DeepSeek获得了多少先进的AI训练硬件,但该公司展示的成果足以表明,贸易限制在阻碍中国进展方面并未完全有效。
DeepSeek何时引发全球关注?
自2023年发布其早期模型以来,这家人工智能开发公司一直备受关注。然后在11月,它向世界展示了其DeepSeek R1推理模型,旨在模仿人类思维。该模型支撑着其移动聊天机器人应用程序,连同1月份的网页界面,迅速成为全球知名的更便宜的OpenAI替代品,投资者Marc Andreessen称其为“人工智能的斯普特尼克时刻。”
根据市场追踪机构App Figures的数据,到1月25日,DeepSeek移动应用程序的下载量达到了160万次,并在澳大利亚、加拿大、中国、新加坡、美国和英国的iPhone应用商店中排名第一。
DeepSeek的创始人是谁?
梁于1985年出生在广东,获得了浙江大学电子与信息工程的学士和硕士学位。根据公司数据库天眼查,他以仅1000万元人民币(约140万美元)的注册资本创立了DeepSeek。
梁在与中国媒体36kr的采访中表示,进一步发展的瓶颈不是更多的融资,而是美国对最佳芯片的访问限制。他表示,他的大多数顶尖研究人员都是来自中国顶尖大学的应届毕业生,强调中国需要发展自己的国内生态系统,类似于围绕Nvidia及其人工智能芯片建立的生态系统。
“更多的投资不一定会导致更多的创新。否则,大公司将垄断所有创新,”梁说。
DeepSeek在中国的人工智能格局中处于何种地位?
中国的科技领袖,从 阿里巴巴集团控股有限公司 和 百度公司 到 腾讯控股有限公司,在争夺硬件和客户的人工智能竞赛中投入了大量资金和资源。与李开复的01.AI初创公司并肩,DeepSeek凭借其开源方法脱颖而出——旨在快速招募最多的用户,然后在这个庞大的受众基础上开发盈利策略。
由于DeepSeek的模型更具成本效益,它已经在帮助降低中国人工智能开发者的成本方面发挥了作用,在这里,较大的参与者已经参与了 一场价格战,在过去一年半中经历了连续的降价潮。
这对全球人工智能市场有什么影响?
DeepSeek的成功可能会迫使OpenAI和其他美国供应商降低价格,以维持其既有的领先地位。这也质疑了像Meta和 微软公司等公司的巨额支出——每家公司今年承诺的资本支出超过 $650亿,主要用于人工智能基础设施——如果更高效的模型能够以更小的支出进行竞争的话。这 动荡了亚洲股市,投资者寻求与DeepSeek相关的中国公司,如科大讯飞,并远离可能受到人工智能半导体需求预期短缺影响的芯片制造供应链公司,如 Advantest公司。
目前,全球的开发者正在试验DeepSeek的软件,并希望利用它构建工具。这可能会加快先进AI推理模型的采用,同时也可能引发对其使用需要设置保护措施的额外关注。DeepSeek的进展可能会加速对AI开发的监管。
DeepSeek的缺点是什么?
与所有其他中国AI模型一样,DeepSeek在中国被视为敏感的话题上进行自我审查。它回避关于天安门广场或像中国入侵台湾这样的地缘政治问题的提问。在测试中,DeepSeek机器人能够对印度总理纳伦德拉·莫迪等政治人物给出详细的回答,但对中国国家主席习近平则拒绝回答。
DeepSeek的云基础设施可能会因其突然的受欢迎程度而受到考验。该公司在1月27日经历了 一次重大故障,并将不得不管理更多的流量,因为新用户和回访用户将更多的查询输入到其聊天机器人中。