字节跳动称新技术将AI模型训练效率提升1.7倍 | 南华早报
Ann Cao
抖音母公司字节跳动宣布,其大语言模型(LLM)训练效率提升1.71倍,成为最新一家实现技术突破的中国科技企业,这项突破可能降低对英伟达高端图形处理器(GPU)的需求。
根据发表在科研人员在线论坛arXiv上的最新论文,该公司豆包研发团队表示,通过优化版混合专家系统COMET,成功将大语言模型训练效率"提速1.71倍"。
混合专家系统是一种机器学习技术,通过多个专家网络将问题空间划分为同质子空间。
该技术已被广泛用于将大语言模型参数规模扩展至万亿级别,同时保持固定计算成本。Grok和DeepSeek等领先人工智能模型均采用这一技术。
2020年9月16日拍摄的北京字节跳动总部。照片:法新社
豆包团队表示,新系统已在公司超万块GPU集群的生产环境中投入使用,实现了"数百万GPU小时的节省"。