中国AI初创企业深度求索（DeepSeek）备受期待的R2模型引发网络热议 | 南华早报

Ben Jiang

2025-04-29

中国初创企业深度求索正在社交媒体上引发疯狂猜测，外界对其下一代开源人工智能(AI)模型充满期待。在中美科技战愈演愈烈的背景下，该公司持续让业界对其进展保持猜测。关于深度求索-R2——今年1月发布的R1推理模型的继任者——的最新猜测在周末浮出水面，包括产品即将发布以及据称其在成本效益和性能方面设定的新基准。这反映出在2024年12月底至2025年1月期间，深度求索因连续发布两款先进开源AI模型V3和R1而获得全球关注后，网络关注度显著提升。这两款模型的构建成本与算力仅为科技巨头开发大语言模型(LLM)项目的零头。LLM是支撑ChatGPT等生成式AI服务的基础技术。据中国股票交易社交媒体平台九阳公社的帖子称，R2据称采用所谓混合专家(MoE)架构开发，总参数量达1.2万亿，构建成本比OpenAI的GPT-4o。混合专家（MoE）是一种机器学习方法，它将AI模型划分为独立的子网络或专家——每个专家专注于输入数据的一个子集——以共同完成任务。据称这能大幅降低预训练期间的计算成本，并在推理时实现更快的性能。

在机器学习中，参数是AI系统中训练期间存在的变量，它们帮助确定数据提示如何产生期望的输出。

02:51

韩国称深度求索未经同意将数据发送至字节跳动在中国的服务器