阿里巴巴的Qwen AI模型为斯坦福、伯克利提供低成本DeepSeek替代方案 | 南华早报

Ben Jiang

2025-02-11

生产最便宜高性能人工智能（AI）模型的竞赛正在升温，美国计算机科学家（包括著名的华裔“AI教母”李飞飞）基于阿里巴巴集团开源技术开发的新型推理模型训练成本不足50美元。此前中国深度求索（DeepSeek）已取得突破性成功。根据上周发表的研究论文，S1推理模型由李飞飞所在的斯坦福大学和华盛顿大学的研究人员，在中国电商巨头阿里巴巴的Qwen2.5-32b-Instruct模型基础上开发。

阿里巴巴模型的能力再次证明中国正在缩小与美国领先AI企业的差距。此前深度求索发布的低成本、高性能开源模型已引发全球关注。阿里巴巴（《南华早报》母公司）港股股价周一上涨6%。论文显示，S1模型经过1000道精选问题答案的训练，并提炼了谷歌Gemini思维实验模型的“思考过程”，其数学和编程能力已超越OpenAI的o1-preview模型。

05:00

中国低成本DeepSeek的问世是否意味着英伟达芯片统治地位的终结？

根据研究中提到的计算数据，仅运行图形处理器（GPU）开发S1的成本可能低至14美元，该模型在16块英伟达H100芯片上训练了26分钟。这些芯片每小时租金为2美元。