字节跳动称新技术将AI模型训练效率提升1.7倍 | 南华早报

Ann Cao

2025-03-12

抖音母公司字节跳动宣布，其大语言模型（LLM）训练效率提升1.71倍，成为最新一家实现技术突破的中国科技企业，这项突破可能降低对英伟达高端图形处理器（GPU）的需求。

根据发表在科研人员在线论坛arXiv上的最新论文，该公司豆包研发团队表示，通过优化版混合专家系统COMET，成功将大语言模型训练效率"提速1.71倍"。

混合专家系统是一种机器学习技术，通过多个专家网络将问题空间划分为同质子空间。

该技术已被广泛用于将大语言模型参数规模扩展至万亿级别，同时保持固定计算成本。Grok和DeepSeek等领先人工智能模型均采用这一技术。

2020年9月16日拍摄的北京字节跳动总部。照片：法新社

豆包团队表示，新系统已在公司超万块GPU集群的生产环境中投入使用，实现了"数百万GPU小时的节省"。