中国AI初创企业深度求索(DeepSeek)备受期待的R2模型引发网络热议 | 南华早报
Ben Jiang
中国初创企业深度求索正在社交媒体上引发疯狂猜测,外界对其下一代开源人工智能(AI)模型充满期待。在中美科技战愈演愈烈的背景下,该公司持续让业界对其进展保持猜测。关于深度求索-R2——今年1月发布的R1推理模型的继任者——的最新猜测在周末浮出水面,包括产品即将发布以及据称其在成本效益和性能方面设定的新基准。这反映出在2024年12月底至2025年1月期间,深度求索因连续发布两款先进开源AI模型V3和R1而获得全球关注后,网络关注度显著提升。这两款模型的构建成本与算力仅为科技巨头开发大语言模型(LLM)项目的零头。LLM是支撑ChatGPT等生成式AI服务的基础技术。据中国股票交易社交媒体平台九阳公社的帖子称,R2据称采用所谓混合专家(MoE)架构开发,总参数量达1.2万亿,构建成本比OpenAI的GPT-4o。混合专家(MoE)是一种机器学习方法,它将AI模型划分为独立的子网络或专家——每个专家专注于输入数据的一个子集——以共同完成任务。据称这能大幅降低预训练期间的计算成本,并在推理时实现更快的性能。
在机器学习中,参数是AI系统中训练期间存在的变量,它们帮助确定数据提示如何产生期望的输出。
02:51
韩国称深度求索未经同意将数据发送至字节跳动在中国的服务器
韩国称深度求索未经同意将数据发送至字节跳动在中国的服务器