AI初创企业深度求索的真实成本与算力引发热议 芯片股受挫 | 南华早报
Iris Deng
过去一周,深度求索(DeepSeek)训练模型所耗费的算力规模成为人工智能专家和投资者高度关注的话题,这一答案可能对技术未来发展产生重大影响。这家中国初创公司在12月发布的DeepSeek-V3大语言模型论文中宣称,训练仅消耗280万"GPU小时",成本560万美元,远低于美国公司开发同类模型投入的时间和资金。
该公司1月20日开源的DeepSeek-R1推理模型已展现出与OpenAI、Anthropic和谷歌更先进模型相媲美的能力,同时训练成本显著降低。关于R1的论文未提及开发成本。
深度求索模型低成本、高性能的特点,令人们对美国科技巨头在昂贵AI芯片上的惊人资本支出必要性产生质疑。这导致上周英伟达股票遭大规模抛售,单日市值蒸发6000亿美元。
05:10
中国AI颠覆者深度求索登顶美国应用商店,取代ChatGPT
中国AI颠覆者深度求索登顶美国应用商店,取代ChatGPT
深度求索及其关联对冲基金高飞量化的记录显示,该公司是训练人工智能资源最丰富的实体之一。早在2019年,高飞与深度求索创始人梁文峰就斥资2亿元人民币(2780万美元)购买了1100块图形处理器(GPU)用于训练股票交易算法。公司文件显示,高飞当时的数据中心面积相当于一个篮球场,约436.6平方米(4700平方英尺)。
2021年,该基金投入10亿元开发超级计算机集群"火萤2号"。据高飞官网介绍,其算力预计可达1550千万亿次浮点运算,性能可与全球顶级超级计算机比肩。