华为宣称采用自研昇腾芯片的AI训练方法优于深度求索 | 南华早报
Hannah Wang
研究华为技术有限公司大语言模型(LLM)盘古的科研人员宣称,他们通过运用这家受美国制裁企业的专有硬件,改进了深度求索(DeepSeek)原有的人工智能(AI)训练方法。由22名核心贡献者和56名研究人员组成的华为盘古团队上周发表论文,提出了分组专家混合(MoGE)的概念。这是对专家混合(MoE)技术的升级版本,该技术对深度求索开发高性价比AI模型起到了关键作用。
论文指出,虽然MoE能以较低执行成本实现大模型参数并增强学习能力,但常导致效率低下。这是由于所谓"专家"的激活不均衡,在并行多设备运行时可能影响性能。
研究人员表示,改进后的MoGE"在专家选择过程中进行分组,更好地平衡专家工作负载"。
在AI训练中,“专家"指大模型内部的专用子模型或组件,每个组件专用于处理特定任务或数据类型。这种设计使整体系统能利用多样化专业知识来提升性能。
01:38
英伟达CEO黄仁勋访华期间称中国为"关键市场”,尽管美国实施AI芯片禁令
英伟达CEO黄仁勋在北京访问期间称中国为"关键市场",尽管美国禁止AI芯片出口
这一进展正值关键时刻,尽管美国限制英伟达等先进AI芯片的出口,中国AI企业仍致力于通过算法优化和软硬件协同来提升模型训练与推理效率。