中国初创企业深度求索发布AI模型性能超越Meta和OpenAI产品 | 南华早报

Ben Jiang

2024-12-28

中国初创企业深度求索(DeepSeek)发布的新一代大语言模型(LLM)在全球人工智能(AI)行业引发轰动，基准测试显示其性能超越了Meta Platforms和ChatGPT开发商OpenAI等竞争对手的模型。这家杭州企业周四通过微信公众号宣布，其同名大模型DeepSeek V3拥有6710亿参数，训练耗时约两个月，成本仅558万美元，所耗计算资源远低于大型科技公司开发的模型。大语言模型是支撑生成式AI服务(如ChatGPT)的核心技术。在AI领域，海量参数对模型适应复杂数据模式、实现精准预测至关重要。针对这家中国初创公司发布的新AI模型技术报告，计算机科学家、OpenAI创始团队成员Andrej Karpathy在社交媒体平台X上评论道：“深度求索举重若轻…以近乎玩笑的预算训练出尖端大模型并开源权重。“开源权重指仅公开AI模型的预训练参数（权重），第三方只能用于推理和微调，不包含训练代码、原始数据集、架构细节及训练方法。

智能手机屏幕上显示着深度求索（DeepSeek）与OpenAI旗下ChatGPT的聊天机器人图标。照片：Shutterstock

深度求索以远低于Meta和OpenAI等大型企业通常投入的支出，开发出强大的大语言模型（LLM），这显示出中国AI企业已取得长足进步，尽管美国制裁阻断了它们获取用于训练模型的先进半导体的途径。