中国初创企业深度求索发布AI模型 性能超越Meta和OpenAI产品 | 南华早报
Ben Jiang
中国初创企业深度求索(DeepSeek)发布的新一代大语言模型(LLM)在全球人工智能(AI)行业引发轰动,基准测试显示其性能超越了Meta Platforms和ChatGPT开发商OpenAI等竞争对手的模型。这家杭州企业周四通过微信公众号宣布,其同名大模型DeepSeek V3拥有6710亿参数,训练耗时约两个月,成本仅558万美元,所耗计算资源远低于大型科技公司开发的模型。大语言模型是支撑生成式AI服务(如ChatGPT)的核心技术。在AI领域,海量参数对模型适应复杂数据模式、实现精准预测至关重要。针对这家中国初创公司发布的新AI模型技术报告,计算机科学家、OpenAI创始团队成员Andrej Karpathy在社交媒体平台X上评论道:“深度求索举重若轻…以近乎玩笑的预算训练出尖端大模型并开源权重。“开源权重指仅公开AI模型的预训练参数(权重),第三方只能用于推理和微调,不包含训练代码、原始数据集、架构细节及训练方法。
智能手机屏幕上显示着深度求索(DeepSeek)与OpenAI旗下ChatGPT的聊天机器人图标。照片:Shutterstock
深度求索以远低于Meta和OpenAI等大型企业通常投入的支出,开发出强大的大语言模型(LLM),这显示出中国AI企业已取得长足进步,尽管美国制裁阻断了它们获取用于训练模型的先进半导体的途径。