《华尔街日报》:美国制裁促使中国企业在无尖端芯片情况下推进AI发展
Karen Hao in Hong Kong and Raffaele Huang in Singapore
美国制裁正促使中国科技企业加速研发不依赖最新款美国芯片的尖端人工智能技术。
《华尔街日报》对研究论文的审阅及对相关员工的采访发现,中国企业正在研究能以更少或性能较低的半导体实现最先进AI性能的技术。它们还在探索如何组合不同类型的芯片,以避免依赖单一硬件。
中国电信设备供应商华为技术有限公司、搜索引擎公司百度和电商巨头阿里巴巴集团都在寻求从现有计算机芯片中榨取更多效用的方法。
研究人员和分析师表示,利用这些变通方案追赶美国AI领军企业仍面临重大挑战。但他们指出,部分实验已展现积极前景,若研究顺利推进,中国科技企业既能抵御美国制裁,也能增强对未来限制措施的韧性。
华为和百度拒绝置评。阿里巴巴未回应评论请求。
随着类ChatGPT模型商业化竞争白热化,全球企业都需要更强大的芯片,并寻求提升其利用率以降低AI开发的激增成本。
对中国企业而言,这一问题更为严峻:员工、AI研究人员及行业分析师表示,美国制裁已切断其获取英伟达等公司最先进芯片的渠道,而它们为开发本土版ChatGPT已快速消耗现有美国芯片库存。
“从字里行间可以明显看出,他们正试图寻找任何可用的计算资源,以弥补顶级硬件不足的短板,”Meta Platforms的人工智能研究员苏珊·张表示,她专攻AI基础设施和大语言模型领域。在AI行业中,“compute"指的是芯片组提供的计算能力总量。
中国最高决策机构上个月提出应鼓励通用人工智能发展方面的创新。
自去年十月美国商务部对向中国供应芯片实施全面限制后,拜登政府已暗示可能实施进一步制裁。
中国企业被禁止获得英伟达A100芯片——这是AI开发领域最受欢迎的芯片,以及今年三月发布的算力更强的下一代H100芯片。
英伟达为中国市场专门开发了降级版芯片,分别命名为A800和H800以符合制裁要求。这两款改良芯片都降低了芯片间的通信能力。
这些产品为开发小规模AI模型(如字节跳动短视频应用TikTok推荐算法使用的模型)提供了有效替代方案。但这种性能限制阻碍了需要协调数百乃至数千枚芯片的大型AI模型开发。
美国对半导体出口的限制意味着中国的人工智能开发者无法再获得业界青睐的英伟达A100芯片。图片来源:Feature China/Barcroft Media/Getty Images在芯片制裁宣布一个月后,OpenAI发布了ChatGPT。这一发布引发了全球范围内开发生成式人工智能的热潮,这类能生成文本和图像的软件需要前所未有的计算能力来开发。瑞银分析师估计,训练这类大型AI模型需要5000至10000颗A100芯片。OpenAI未回应置评请求。
据一位与会人士透露,在近期一场闭门行业会议上,一家政府关联半导体行业协会发布的调查显示了供应受限情况:中国境内可用于训练大型AI模型的A100芯片约4万至5万颗。该协会未回应置评请求。
知情人士称,阿里巴巴、百度等中国企业在制裁前囤积了A100芯片,现已严格限制内部使用外国先进芯片,仅保留用于计算最密集的任务。
据《华尔街日报》此前报道,百度在文心一言发布前暂停了包括自动驾驶部门在内所有团队对A100的使用,以集中资源开发生成式AI产品。
根据开源研究论文和知情人士说法,百度近年尝试将海光信息的DCU、华为昇腾AI训练芯片及自研昆仑芯片纳入AI开发。但部分人士指出,许多国产芯片在训练大模型时仍存在可靠性问题,易出现系统崩溃。
据新加坡国立大学教授、高性能计算与人工智能技术公司HPC-AI Tech创始人杨友透露,目前中国企业正尝试将三至四颗A800、H800等性能稍逊的芯片组合使用,以模拟英伟达高端处理器的运算能力。
今年四月发布的新型计算集群显示,腾讯已采用英伟达H800芯片搭建了用于大规模AI模型训练的互联芯片组。
百度曾集中调配其储备的A100芯片开发文心一言AI系统。图片来源:TINGSHU WANG/REUTERS杨友指出这种方案成本高昂:若美国企业训练大语言模型需1000颗H100芯片,中国企业可能需3000颗以上H800才能达到同等效果。
这促使部分企业加速研发跨芯片类型的大模型训练技术。研究显示,在硬件资源有限又亟需降本的中国科技公司里,这类研究本已普遍。阿里巴巴、百度与华为已尝试混合使用A100、英伟达前代V100/P100芯片及华为昇腾芯片的不同组合方案。
AI专家表示,美国企业鲜少采用多类型芯片方案,因其存在确保稳定运行的技术难题。Meta公司张女士称:“这是万不得已的选择。”
与此同时,中国企业正通过多种软件技术降低大模型训练的计算强度——这种技术路线在全球范围内(包括美国企业)加速发展。但研究论文表明,与美国企业不同,中国企业在综合运用多种软件技术方面更为激进。
尽管全球研究界仍在完善这些方法且实施难度较大,但中国研究人员已取得一些成功。
在3月的一篇论文中,华为研究人员展示了如何仅使用公司自研昇腾芯片(无需英伟达芯片)来训练其最新一代大语言模型。研究人员在论文中写道,尽管存在一些不足,但名为"盘古Σ"的模型在中文阅读理解、语法挑战等多项任务中达到了业界领先水平。
OpenAI去年11月推出的ChatGPT引发了全球开发生成式AI的热潮。图片来源:Clara Mokri/华尔街日报半导体研究与咨询公司SemiAnalysis首席分析师Dylan Patel表示,若无法获得英伟达H100芯片(该芯片具有特别有助于训练类ChatGPT模型的性能增强功能),中国研究人员的困境只会加剧。
但百度与深圳鹏城实验室去年联合发表的论文显示,研究人员正在采用一种无需依赖该功能的大模型训练方法。Patel认为尽管研究尚处早期阶段,但前景可观。
“如果进展顺利,他们就能有效规避制裁。“他说道。
联系Karen Hao请致信 [email protected],联系Raffaele Huang请致信 [email protected]
出现在2023年5月8日的印刷版中,标题为《中国AI制造商规避美国制裁》。