阿里巴巴的Qwen AI模型为斯坦福、伯克利提供低成本DeepSeek替代方案 | 南华早报
Ben Jiang
生产最便宜高性能人工智能(AI)模型的竞赛正在升温,美国计算机科学家(包括著名的华裔“AI教母”李飞飞)基于阿里巴巴集团开源技术开发的新型推理模型训练成本不足50美元。此前中国深度求索(DeepSeek)已取得突破性成功。根据上周发表的研究论文,S1推理模型由李飞飞所在的斯坦福大学和华盛顿大学的研究人员,在中国电商巨头阿里巴巴的Qwen2.5-32b-Instruct模型基础上开发。
阿里巴巴模型的能力再次证明中国正在缩小与美国领先AI企业的差距。此前深度求索发布的低成本、高性能开源模型已引发全球关注。阿里巴巴(《南华早报》母公司)港股股价周一上涨6%。论文显示,S1模型经过1000道精选问题答案的训练,并提炼了谷歌Gemini思维实验模型的“思考过程”,其数学和编程能力已超越OpenAI的o1-preview模型。
05:00
中国低成本DeepSeek的问世是否意味着英伟达芯片统治地位的终结?
中国低成本DeepSeek的问世是否意味着英伟达芯片统治地位的终结?
根据研究中提到的计算数据,仅运行图形处理器(GPU)开发S1的成本可能低至14美元,该模型在16块英伟达H100芯片上训练了26分钟。这些芯片每小时租金为2美元。