白呀白Talk:美升级英伟达AI芯片限制,要如何应对?_风闻
我心飞翔666-10-23 10:37
美针对人工智能AI芯片的出口新规,要求进一步细化标准,同时要求美国芯片公司详细报告芯片的出货量。推出更加严格的综合性参数标准,全方位的阻止高阶AI芯片出口,以堵漏英伟达在去年针对中国市场推出的A800、H800等特供版芯片。阻止英伟达、AMD等企业继续向中国继续出口先进的AI芯片。
与此同时,在十七日当天,美商部还将壁仞科技和摩尔线程等多家中国科技企业列入了实体清单,意在进一步限制我们国产GPU显卡的发展。
看来,未来我们人工智能面临的情况,不只是英伟达GPU涨价缺货的问题了,而更会面临的是无法买到、无法获取的一个难题。无论是购买英伟达的GPU,还是使用基于GPU的云服务,更具体的说,对未来大模型训练需要的算力指数级别的提升。都会遇到前所未有的风险。
那么此时此刻,创新、突破、寻找新的解决方案,成为了当务之急,也是目前唯一的一个选项。
首先,如果我们要理解为何限制英伟达GPU出口会有如此大的影响,那么我们就要理解AI产业为何如此依赖英伟达的显卡?
随着2002年11月份,ChatGPT的发布,相比传统的深度学习技术,如bert,在智能性、通用性上,openAI取得了巨大的突破,具备了基础的语言、知识和简单的推理能力,能够很好的模拟人类的智能行为,这一突破性的跨越,让全世界看到了人工智能成为新的一代工业革命趋势的可能性。
究其原因,这里面有两个关键点,其一,相比之前不到10亿的参数规模进入到GPT3.5时代,参数量突破到了1750亿,预训练数据量更是达到了45TB。而最新的GPT-4更是来到了千亿万亿参数量的级别。其中,对于大数据、大模型、大算力的需求,是之前所有人未能预见到的。其二,Transformer模型,拥有强大的自我调教能力,基本上融入了过去人类实现人工智能的三条主要路径,即输入经验知识、实现人类大脑、从数据中学习。大语言模型虽然属于第三条路径,但是也借鉴了人脑的层级结构机制,同时具备了第一条的路径特点。所以,海量参数、巨量模型、黄教主Respect“三条河流正在交汇”。随之openAI、Claude、谷歌BARD、阿里的通义千问、百度的文心一言等大语言模型规模不断增长,大模型的竞争更加激烈,模型进化的速度也越来越快。算力成为了一个绕不开的话题。也使得拥有CUDA架构框架、强大GPU性能、丰富的软硬件生态的英伟达,成为了大语言模型AI的基础设施。
这让人们更加迷信,唯有买更多的显卡,唯有搭建更大体量的算力中心,唯有继续提升总算力的部署,才能实现更高级别的AI应用,才能与openAI、谷歌并驾齐驱,才能在商业上有所竞争。继续买买买,继续相信黄教主,成为目前我们国内企业AI部门自我麻痹的逻辑闭环。核心的技术积累要严重依赖一家美国企业的第三方硬件的供应。这样对吗?这样能够长久吗?
目前,一台八卡的英伟达GPU示服器,采购成本更是将近30万美元。即使未来我们能够通过海外漏洞,海淘到购买到H100显卡,最终溢价也是相当的严重。据说未来英伟达还很可能取消单卡销售,只能卖成套的AI伺服器。可以预见,即使没有美国新规的出台,实际上这样的商业模式也是不能持久的,存在着极大的供应链的隐患,并且在进一步规模化部署上也造成了巨大的风险。
可以说,如果我国的企业,特别是部分大厂,在人工智能领域,希望形成真正的战斗力,减少外部供应链的影响。接下来,如何统筹好模型与硬件的协同进步,发展自主可控的芯片技术,突破英伟达在AI芯片领域的垄断,建立国产AI生态的良性发展,成为了接下来极为关键的一步。
那么我们来思考一个问题,突破英伟达的关键在哪里呢?我认为啊有三个方向。
首先第一点,我认为是自研芯片的成本优势。以英伟达GPU伺务器为例,目前采购价格在30万美元左右。而根据国外机构拆解的分析,加上GPU显卡、伺服器风扇、机壳、排线,实际上,英伟达示务器的整体的生产制造成本仅在7万美元上下,毛利率高达70%以上。
高成本servers的价格门槛,也直接影响到了AI技术在小型企业和中小型应用的开发普及,这也一定程度上限制了AI市场规模的扩张。
即使是openAI,如今也面临了巨大的盈利压力。所以如何降低服务器的成本压力,实际上是目前整个行业共同的一个难题。虽然自研芯片AI芯片前期的投入巨大,面临着极大的技术上挑战,但是从长期的竞争角度,既然作为AI的基础设施,降本的空间如此巨大,里面必然蕴含了充足的商业利润,形成正向研发投入的闭环是可能的。
其次,大厂自己做芯片,还有一个先天的优势,在设计的初期,就能够深入的规划“芯片+模型”的协同的调度能力。不像英伟达GPU,它实际上需要面向各种的AI应用场景,需要兼容不同的软件栈,不同的训练模型。而这样的兼容性往往就会以牺牲每个训练任务的效率和性能作为代价。而国内各大AI大厂,实际上对于自家模型的优势,应用场景的长期规划又有着具体深入理解,自研AI芯片能够针对自身模型进行全方位的优化,无需考虑更加广泛兼容性针对性能的影响。
而随着人工智能未来五年十年的发展,定制化的优势只会越来越大。
最后,网友们可能会担心芯片的制造问题。不知道大家最近有没有关注AMD发布的MI300X,以及华为的Atlas超级计算集群。大家有没有发现一个趋势,那就是AI芯片单卡算力并不是未来发展的重点。苏大妈在MI300X发布会上压根就不提具体的算力指标,而专注于内存容量、带宽和互联,探索未来如何将大模型放在一个足够大的高性能内存中。而华为最新的Atlas超算集群,思路很明确。哥压根就不跟你卷单卡的算力,卷工艺的制程。设计思路与之前的GPU伺务器相比,是截然不同的一个物种,打破了过去依赖GPU/TPU/FPGA的主流的思路,采用了CPU+NPUhybrid的架构。华为Atlas的算力超级集群的设计理念,就是要使用更多经济实用的普通CPU处理器,以及更加高效能的NPU来实现万亿级参数模型的运行。
大家都知道,华为是做交换机出身的,其中可以发现此次采用了正式华为的光交换机技术来实现千TB的互联,这也是Atlas超算集群能够取得突破的关键。而华为的这个设计思路,单芯片的算力压根不是重点,关键在于规模化上的突破,是设计思路和设计理念上全新的思考角度,这必然会给整个业界带来极为深远的影响。
其实华为Atlas超算集群就是给大家打了个样。并不是我国AI产业未来唯一发展的方向。其实,未来新的内存介质,新的内存带宽技术,包括面向未来的互联技术,这些都是未来AI硬件、AI技术发展值得原创性的研发,值得探索的突破方向。
唯有自研、创新、思考、热爱,才能真正在人工智能这条大赛道上,取得长期的胜利。