深度求索论文披露新细节：如何运用2048块英伟达芯片挑战OpenAI | 南华早报

Ben Jiang

2025-05-17

中国人工智能（AI）研究实验室深度求索发布最新研究论文，首次详细披露如何以远低于竞争对手的成本构建出全球最强大的开源AI系统之一。这篇由深度求索创始人梁文锋合著、于周三发布的论文《深度求索-V3洞察：AI架构的扩展挑战与硬件思考》指出，该初创公司能训练出高性能、低成本AI系统的突破性成果，源于其采用的软硬件协同设计方法。

研究人员写道：“基于2048块英伟达H800 GPU训练的深度求索-V3证明，硬件感知的模型协同设计能有效应对这些挑战，实现大规模低成本训练与推理。“深度求索及其对冲基金股东幻方此前囤积了大量H800芯片——该芯片本是英伟达为符合美国出口限制而设计的中国特供版，但2023年起被全面禁运。论文指出，该团队的训练方法源于对硬件限制的清醒认知，以及训练大语言模型（LLM）的"惊人成本”——这项技术正是ChatGPT等AI聊天机器人的核心。论文详述了提升内存效率、优化芯片间通信、增强AI基础设施整体表现的技术方案，这些在扩展能力同时降低运营成本的关键突破，被研究者称为"为下一代AI系统创新提供了实用蓝图”。

DeepSeek还强调了其采用的混合专家（MoE）模型架构，这是一种机器学习方法，将AI模型划分为独立的子网络（即专家），每个子网络专注于输入数据的子集，同时协同工作。