国产大模型震惊海外,360周鸿祎怎么看?_风闻
你相信光吗-爱比丽屋12分钟前
来源:周鸿祎
前几天中国六代战机曝光,外网闹翻天了。这还不够,这两天中国大模型又出了新版本,致使海外 AI 社区刷屏。国内AI 创业公司 DeepSeek发布了新的开源大模型,其参数量为6000多亿,性能赶上了 GPT - 4o和Facebook的羊驼,但训练成本比它们降低了10倍,价格仅为它们的10%。**该模型推出后,明显能感觉到海外 AI 技术人才对中国 AI 技术的进步,处于半震惊半懵状态。**网友评论整齐划一,都在问中国人是如何做到的?Meta 的一位科学家惊叹,DeepSeek 的训练像是黑科技。OpenAI 的一位创始团队成员称,以前达到 DeepSeek 这种级别能力通常需16000个 GPU,而现在 DeepSeek 只用2000个 GPU,计算量减少了11倍,这证明 AI 算法还有很大优化空间。
大家可能不太了解 DeepSeek 这家公司,虽然我们有合作,但我对其了解不深,于是用纳米 AI 搜索查询了一下。DeepSeek 中文名为深度求索,如名字所示,该公司一直低调行事,却早有名气。**在硅谷,DeepSeek 被称为来自东方的神秘力量。**其背后是量化私募的巨头幻方公司,2021 年为做量化交易囤了一万张英伟达 A100,当时 ChatGPT 尚未出现,大模型也未发布,如同 Meta 为搞元宇宙囤卡一样,都机缘巧合赶上了 AI 浪潮,所以在其他巨头闹卡荒时,DeepSeek 手中有卡心中不慌。这家公司首次被人记住是因其发布 2.0 开源模型时提供了史无前例的性价比,模型推理成本降至每百万个 token 约一元,约为 LLaMA的1/7、GPT 的1/70,故而 DeepSeek 被称为 AI 界的拼多多,掀起国产大模型价格战,字节跳动、腾讯、百度、阿里纷纷降价。如今开发者能享大模型福利,DeepSeek 功不可没。
为何今日要提及此事?过去我常说中美 AI 核心差距不大,约半年左右,主要差距在算力。因核心算法公开,多为工程化方法,模型也是开源的,差距实则不大,可很多人不信,一些专家还带节奏,称论 AI 实力美国领先,中国最多第二梯队,美国遥遥领先,我对此不敢苟同。**有人妄自菲薄还让众人灰心,长他人的志气灭自己的威风,对中国 AI 产业发展无益。**如今 DeepSeek 发布的模型有力回击了这些言论。微软、脸书、谷歌都在朝着10万卡集群做大模型训练时,DeepSeek 仅用2000个 GPU,花费不到600万美金和两个月时间,就做出一个与全球顶尖大模型能力对齐的开源大模型。有人质疑说,新推的大模型是用国外模型知识蒸馏而来,但知识蒸馏方法人人可用,为何他人未做到?此次效率大幅提升,肯定是在底层架构上有不同于其他巨头的创新,DeepSeek 定有不为人知的训练方法和工程实践方法。过去只有美国 AI 公司具备这种独有能力,如今中国公司也逐渐掌握了。有人会说 DeepSeek 只是个例,缺乏说服力,能否说出更多先进国产大模型?当然可以。比如阿里的通义千问,其推出的千问2.5系列大模型,其中的700亿参数版本,在视觉推理、数学和科学问题表现上与国外大模型相比毫不逊色,慢思考能力也逐渐提升。此外,王小川的百川智能近期推出的金融大模型在专业能力上超过了 GPT - 4o,这也证实了我之前对专业大模型的判断,即在通用大模型基础上结合专业领域知识训练,专业大模型能力可超越通用大模型,我们称之为领域增强。360 在o1出现前就实现了慢思考能力,只是实现方法略有不同,360 打造的安全行业大模型能力也遥遥领先于 GPT - 4o。总之,希望观看这篇文章的各位相信中国 AI 发展并不弱,不要被某些专家言论误导。过去我们是模仿者和追随者,他人擅长从零到一,我们擅长从一到 n,如今情况正转变,中国科技领域原发性创新已让全世界看到,过去是 “Copy to China”,以后可能是 “Copy from China”。
DeepSeek 公司表现出色,开了个好头,今后我国 AI 创新定会更加活跃。借 DeepSeek 这个版本,我谈几点大模型发展的看法。第一,无需再争论开源与闭源好坏,DeepSeek 是开源的,开源模型正赶超闭源模型。在人类技术发展趋势中,开源可使大模型技术不被少数巨头垄断,唯有开源才能让大模型真正走入各行各业,让各级政府和企业低成本在开源基座模型上打造行业应用,推动生产力飞跃。所以 DeepSeek 的进步对推动中国 AI 产业发展是极大利好。更令人振奋的是,中国正引领全球大模型开源浪潮,开源是互联网精神的直接体现,也是美国科技发展的源泉与机制。然而,现在中国最强的两个模型通义千问和DeepSeek 是开源的,美国最强的两个模型Claude和GPT 却是闭源的.可见美国走向闭源,中国走向开源,这预示着科技发展天平向中国倾斜,一旦中国开源生态建立,这种创新机制将助力中国加速 AI 科技发展,掌握先机,实现从追赶者到引领者的华丽转身。第二,DeepSeek 3.0版本用2000块卡做到了万卡集群才能做到的事,这表明我们在一定程度上打破了西方对我们的算力封锁,堪称奇迹。当前美国想尽办法对我们进行小院高墙式的封锁,遏制中国 AI 产业发展,禁止高端算力芯片流入中国。只有强大对手才能逼出最强的自己,若针对中国 AI 芯片的禁令,最终使中国大模型在算力受限情况下找到更高效解决方案,那这种适得其反的结果影响将更广泛。此外,用这种极致训练方法训练专业大模型,算力成本会进一步降低,促使中国 AI 在专业、垂直、场景、行业大模型上更快普及。第三,有人会问,如此一来我们是否还有必要建万卡集群?不要误解,我并非说中国 AI 发展不需要高端算力芯片,巨头们囤显卡建算力集群依旧必要,因为目前预训练算力需求或许没那么大,但像慢思考这类复杂推理模型对推理算力需求大,文生图、文生视频的应用也需消耗大量算力资源,巨头们提供 AI 云服务,构建庞大算力基础必不可少,这与 DeepSeek 降低训练算力需求是两回事,两者并不矛盾。建万卡集群实际是个工程问题,做过一次便一通百通,所以马斯克从 OpenAI 挖人建十万卡集群,小米挖 DeepSeek 的天才少女,都是为获取工程化的万卡集群训练诀窍。作为科技行业的从业者,看到 DeepSeek 推出如此厉害的模型,中国 AI 公司凭借原发性技术创新震惊世界,让曾经轻视我们的外国开发者同行惊愕,各位是否感到畅快、自豪与感动?这绝对是中国 AI 产业发展的里程碑事件,我相信以后中国 AI 发展此类新闻会越来越多。大家应对中国 AI 产业发展充满信心。