遇见深度求索：这家中国初创企业正在改变AI模型的训练方式 | 南华早报

Ben Jiang

2025-01-02

中国初创企业深度求索（DeepSeek）在2025年成为开源大语言模型（LLM）领域的“最大黑马”，就在几天前，该公司凭借最新发布的产品在全球人工智能（AI）界掀起波澜。这一评价来自英伟达高级研究科学家、AI Agents计划负责人范麟曦（Jim Fan），他在元旦当天于社交媒体平台X上发文，此前这家总部位于杭州的初创公司上周发布了同名大语言模型DeepSeek V3。“（这一新AI模型）表明资源限制会迫使你以惊人的方式重塑自我，”范麟曦写道，他指的是深度求索以远低于其他科技公司开发大语言模型的资本投入开发了该产品。

DeepSeek V3拥有6710亿参数，训练耗时约两个月，成本为558万美元，使用的计算资源远少于Facebook母公司Meta Platforms和ChatGPT创造者OpenAI等大型科技公司开发的模型。大语言模型是指支撑生成式AI服务如ChatGPT。在人工智能领域，大量参数对于使大型语言模型能够适应更复杂的数据模式并做出精确预测至关重要。开源让公众可以访问软件程序的源代码，允许第三方开发者修改或分享其设计、修复损坏的链接或扩展其功能。半导体设计巨头英伟达的高级研究科学家Jim Fan表示，他一直在密切关注人工智能初创公司深度求索的发展。照片：南华早报

深度求索以比大公司更低的成本开发出强大的大型语言模型，这显示了中国AI公司取得的进步，尽管美国制裁在很大程度上阻断了它们获取用于训练模型的先进半导体的途径。