国产大模型震惊海外，360周鸿祎怎么看？_风闻

你相信光吗-爱比丽屋12分钟前

2025-01-06

来源：周鸿祎

前几天中国六代战机曝光，外网闹翻天了。这还不够，这两天中国大模型又出了新版本，致使海外 AI 社区刷屏。国内AI 创业公司 DeepSeek发布了新的开源大模型，其参数量为6000多亿，性能赶上了 GPT - 4o和Facebook的羊驼，但训练成本比它们降低了10倍，价格仅为它们的10%。**该模型推出后，明显能感觉到海外 AI 技术人才对中国 AI 技术的进步，处于半震惊半懵状态。**网友评论整齐划一，都在问中国人是如何做到的？Meta 的一位科学家惊叹，DeepSeek 的训练像是黑科技。OpenAI 的一位创始团队成员称，以前达到 DeepSeek 这种级别能力通常需16000个 GPU，而现在 DeepSeek 只用2000个 GPU，计算量减少了11倍，这证明 AI 算法还有很大优化空间。

大家可能不太了解 DeepSeek 这家公司，虽然我们有合作，但我对其了解不深，于是用纳米 AI 搜索查询了一下。DeepSeek 中文名为深度求索，如名字所示，该公司一直低调行事，却早有名气。**在硅谷，DeepSeek 被称为来自东方的神秘力量。**其背后是量化私募的巨头幻方公司，2021 年为做量化交易囤了一万张英伟达 A100，当时 ChatGPT 尚未出现，大模型也未发布，如同 Meta 为搞元宇宙囤卡一样，都机缘巧合赶上了 AI 浪潮，所以在其他巨头闹卡荒时，DeepSeek 手中有卡心中不慌。这家公司首次被人记住是因其发布 2.0 开源模型时提供了史无前例的性价比，模型推理成本降至每百万个 token 约一元，约为 LLaMA的1/7、GPT 的1/70，故而 DeepSeek 被称为 AI 界的拼多多，掀起国产大模型价格战，字节跳动、腾讯、百度、阿里纷纷降价。如今开发者能享大模型福利，DeepSeek 功不可没。

为何今日要提及此事？过去我常说中美 AI 核心差距不大，约半年左右，主要差距在算力。因核心算法公开，多为工程化方法，模型也是开源的，差距实则不大，可很多人不信，一些专家还带节奏，称论 AI 实力美国领先，中国最多第二梯队，美国遥遥领先，我对此不敢苟同。**有人妄自菲薄还让众人灰心，长他人的志气灭自己的威风，对中国 AI 产业发展无益。**如今 DeepSeek 发布的模型有力回击了这些言论。微软、脸书、谷歌都在朝着10万卡集群做大模型训练时，DeepSeek 仅用2000个 GPU，花费不到600万美金和两个月时间，就做出一个与全球顶尖大模型能力对齐的开源大模型。有人质疑说，新推的大模型是用国外模型知识蒸馏而来，但知识蒸馏方法人人可用，为何他人未做到？此次效率大幅提升，肯定是在底层架构上有不同于其他巨头的创新，DeepSeek 定有不为人知的训练方法和工程实践方法。过去只有美国 AI 公司具备这种独有能力，如今中国公司也逐渐掌握了。有人会说 DeepSeek 只是个例，缺乏说服力，能否说出更多先进国产大模型？当然可以。比如阿里的通义千问，其推出的千问2.5系列大模型，其中的700亿参数版本，在视觉推理、数学和科学问题表现上与国外大模型相比毫不逊色，慢思考能力也逐渐提升。此外，王小川的百川智能近期推出的金融大模型在专业能力上超过了 GPT - 4o，这也证实了我之前对专业大模型的判断，即在通用大模型基础上结合专业领域知识训练，专业大模型能力可超越通用大模型，我们称之为领域增强。360 在o1出现前就实现了慢思考能力，只是实现方法略有不同，360 打造的安全行业大模型能力也遥遥领先于 GPT - 4o。总之，希望观看这篇文章的各位相信中国 AI 发展并不弱，不要被某些专家言论误导。过去我们是模仿者和追随者，他人擅长从零到一，我们擅长从一到 n，如今情况正转变，中国科技领域原发性创新已让全世界看到，过去是 “Copy to China”，以后可能是 “Copy from China”。

DeepSeek 公司表现出色，开了个好头，今后我国 AI 创新定会更加活跃。借 DeepSeek 这个版本，我谈几点大模型发展的看法。第一，无需再争论开源与闭源好坏，DeepSeek 是开源的，开源模型正赶超闭源模型。在人类技术发展趋势中，开源可使大模型技术不被少数巨头垄断，唯有开源才能让大模型真正走入各行各业，让各级政府和企业低成本在开源基座模型上打造行业应用，推动生产力飞跃。所以 DeepSeek 的进步对推动中国 AI 产业发展是极大利好。更令人振奋的是，中国正引领全球大模型开源浪潮，开源是互联网精神的直接体现，也是美国科技发展的源泉与机制。然而，现在中国最强的两个模型通义千问和DeepSeek 是开源的，美国最强的两个模型Claude和GPT 却是闭源的.可见美国走向闭源，中国走向开源，这预示着科技发展天平向中国倾斜，一旦中国开源生态建立，这种创新机制将助力中国加速 AI 科技发展，掌握先机，实现从追赶者到引领者的华丽转身。第二，DeepSeek 3.0版本用2000块卡做到了万卡集群才能做到的事，这表明我们在一定程度上打破了西方对我们的算力封锁，堪称奇迹。当前美国想尽办法对我们进行小院高墙式的封锁，遏制中国 AI 产业发展，禁止高端算力芯片流入中国。只有强大对手才能逼出最强的自己，若针对中国 AI 芯片的禁令，最终使中国大模型在算力受限情况下找到更高效解决方案，那这种适得其反的结果影响将更广泛。此外，用这种极致训练方法训练专业大模型，算力成本会进一步降低，促使中国 AI 在专业、垂直、场景、行业大模型上更快普及。第三，有人会问，如此一来我们是否还有必要建万卡集群？不要误解，我并非说中国 AI 发展不需要高端算力芯片，巨头们囤显卡建算力集群依旧必要，因为目前预训练算力需求或许没那么大，但像慢思考这类复杂推理模型对推理算力需求大，文生图、文生视频的应用也需消耗大量算力资源，巨头们提供 AI 云服务，构建庞大算力基础必不可少，这与 DeepSeek 降低训练算力需求是两回事，两者并不矛盾。建万卡集群实际是个工程问题，做过一次便一通百通，所以马斯克从 OpenAI 挖人建十万卡集群，小米挖 DeepSeek 的天才少女，都是为获取工程化的万卡集群训练诀窍。作为科技行业的从业者，看到 DeepSeek 推出如此厉害的模型，中国 AI 公司凭借原发性技术创新震惊世界，让曾经轻视我们的外国开发者同行惊愕，各位是否感到畅快、自豪与感动？这绝对是中国 AI 产业发展的里程碑事件，我相信以后中国 AI 发展此类新闻会越来越多。大家应对中国 AI 产业发展充满信心。