因为算力不够,ChatGPT没有出现在中国,为什么算力不够?_风闻
托卡马克之冠-自由撰稿人-不首先使用种族歧视和双重标准04-12 13:40
国内人工智能的问题是卡在算力上。
国内在人工智能这块的嗅觉并不差,当年深度学习之父,AI训练大纲反向传播算法的发明人乔佛雷·辛顿曾经接到过来自百度的合作邀请,这个邀请要先于谷歌,谷歌是在百度发出邀约后才入的局,此后百度和谷歌双方竞拍辛顿和自己的两个学生成立的皮包公司(本质上是竞相出价邀请辛顿与自己合作)时,百度的出价也一直高于谷歌。
后来辛顿还是选择与谷歌合作了,尽管百度出价更高。
对此,辛顿的解释是“我们是学者,不是商人,学者只忠于自己的创意和思维,而不是任何其他东西”。
这绝不是得了便宜之后的卖乖,更不是卖弄自己的格局。
要知道辛顿从事神经网络研究已经几十年了,他搞出当代人工智能训练方法的基础大纲,反向传播算法的时候是80年代,距离现在40多年了,由于指令存储式计算机几十年来的飞速发展和广泛应用,再加上电子工业水平不足以支撑神经网络的需要,神经网络作为和指令存储式计算机并列的一条技术路线,几十年来是饱受冷眼的,是长期被视为一条失败的技术路线的,60年代马文·明斯基关于神经网络的著作《感知机》出版之后,神经网络一度被视为不可能的技术路线,当时你要是说你是搞感知机的(神经网络早年也被称为感知机),其它人看你的眼神大概就和你说自己是搞永动机的差不多。
辛顿早就坐了几十年的冷板凳了,他要是真的图钱,凭他的学术水平,去搞指令存储式计算机的研究早就发大财了。
所以这句话是真心的。
至于为什么他认为去美国工作才能忠于自己的创意和思维,而不是来中国,这才是真正值得深挖的东西。
辛顿和他的两个学生在2018年因为对人工智能的杰出贡献而荣获图灵奖,其中一个学生叫伊利亚·萨特斯基夫,他在谷歌工作一段世界后,于2015年被马斯克邀请,成为OpenAI的创始人之一,2019年,OpenAI用gpt在Dota2中击败人类世界冠军,随后微软追加投资100亿美元。
后来的事情你们都知道了。
然后话又说回来了,为什么是卡在算力上?
先说一下,人工智能所使用的各种数学方法和基本概念不是什么最近几十年才出现的新生事物,计算机之父冯·诺伊曼当年就曾经慎重比较过指令存储式计算机和感知机两条技术路线,是当时的电子工业实在是不行,才选择的后者。
用于AI画色图和人脸识别的卷积神经网络,用于模拟人类大脑记忆功能从而防止把老婆和老婆饼,白菜和翡翠玉白菜搞混的霍普菲尔德神经网络,用于训练AI的反向传播算法,这些东西更是比在座各位大多数人岁数都要大的老玩意了,它们都出现于80年代,不是什么新鲜事物。
那么技术路径已经有了,基本方法也已经完善,可为什么到现在人工智能才真正开始爆发呢?
俩字:算力。
举个最简单的例子,因为深度优化了卷积神经网络,并发明了卷积神经网络一词,而和辛顿一起获得2018年图灵奖的法国人杨立昆,他在80年代研究卷积神经网络的时候,对自己的作品LeCun进行训练时,总共只用了6万个学习参数。
这个数字在我们今天看来简直不值一提,毕竟现在人工智能的参数都是百亿级别的,但在当时看来已经非常不可思议,近乎天文数字了。
为啥会这样呢?不就是因为电子工业拉胯,算力跟不上吗?
为啥冯·诺伊曼在技术路径选择时选择了指令存储式计算机(也就是你我现在用的电脑和手机),而不是神经网络,为啥早年你说自己在研究神经网络,其它人会用看永动机的眼神来看你?主要原因之一就是在那个电子工业主要依靠电子管和磁带转盘来运行的时代,神经网络所需要的设备体积之大,因为神经网络需要数以亿计的处理单元,每一个处理单元之间还要互相连接,你能想象数以亿计的电子管用线缆接在一起,周围还到处都是磁带转盘在旋转是什么场面吗?
所以冯·诺伊曼才选择了对设备体积要求较低,功耗较低的指令存储式计算机,可就算是这样,当年的指令存储式计算机也是动辄要用几层楼才能装得下的,而算力只有几千次。
因此,制约人工智能的主要矛盾,不是模型,而是算力。
这可以从美国的封锁方法和国内的人工智能现状就能看出来,美国没有封锁数据出境,也没有封锁学术交流,而是禁止出口高品质显卡,而国内在chatgpt爆火之后推出了一大堆人工智能模型,都不说百度的文心一言这种比较知名的产品了,炒股的同花顺都整了一个你知道吗?
80年代之所以集中出现了一连串的人工智能学术成果,就是因为当时电子工业有了进步,大规模集成电路逐步成熟并投入引用,在较小体积的设备上以较低功耗运转大量处理单元成为可能,神经网络实用化俱备了可能性,于是学术界才重新投入对神经网络的研究,于是学术成果才集中出现的。
事情的解决,要一直等到1993年,一个叫黄仁勋的游戏宅在加州创立了一家叫英伟达的公司,而根据黄仁勋在斯坦福大学接受采访时的说法,他当时创立这家公司的目的就是为了“让原本只有最昂贵的工作站才能用得起的图形处理器来为游戏显示提供支持”。
说白了就是为了玩。
而当他对他的父母说自己要做游戏设备时,他父母的反应非常中国式,非常做题家,非常具有中国特色成功观——“做游戏?你咋不去找份正经工作?”
还能说什么呢?还有什么可说的呢?
做题做题,做甚鸟题,君以此兴,必以此亡。
后来的事情就很简单了,在无数玩家对游戏体验的极致追求下,算力设备的产业技术水平一日千里,甚至因为黄仁勋升级换代不给力而痛骂其是继英特尔和尼康之后又一牙膏厂,挤一点出来一点。
直到2020年5月14日,黄仁勋在GTC2020演讲上公布了英伟达最新的Ampere架构,该架构上有整整540亿个晶体管,人类用不着数以亿计的电子管了,同时,英伟达为了进一步提高玩家的游戏体验,特别是保证高画质下的高帧数和游戏运行的流畅性,还引入了原本只用于神经网络训练的深度学习算法,让深度学习超级采样技术在显卡上彻底成熟。
原本用于指令式计算机的设备在此刻与自己的双生姐妹神经网络携手并肩,这是两个美妙灵魂的和谐共舞。
微软采购了1万片使用Ampere架构的A100显卡。
后面的事情你们也知道了。
居然还有人说是矿老板带来了显卡发展?贪天之功以为己有。中本聪在2008年才发表区块链技术,2009年才整出比特币来,2010年有人用10000BTC买了两个披萨,这才开始具有商业价值,等到因为比特币暴涨,矿老板开始成规模出现和我们臭打游戏的抢显卡已经是2017年之后的事情了。
然后还矿难了,咸鱼上各种“女生自用二手99新”的女骑士一堆一堆的。
而且区块链本身也和神经网络一样,是一种需要有足够算力加持才能落地实现的技术,而算力进步的前三个馒头都是臭打游戏的硬啃下来的,第四个馒头人工智能一口,玩家一口,矿难前的矿老板一小口,就这都能说矿老板带来显卡发展?脸都不要了。
没玩家撑着,英伟达从1993年到2017年这几十年喝西北风去?
哪怕是人工智能高速发展的当下,游戏玩家依然贡献了英伟达超过40%以上的营收,算力爆发的半壁江山,从来就有我们玩家一份,妄图抹杀游戏对人类文明进步做出的贡献,属于人为捏造历史记忆,修改共识,篡改史书的卑劣行径。
于是下一个问题就浮出水面了。
chatgpt为什么没有出现在中国?明明中国在百亿参数级别的模型训练上入局很早,眼光也不差,甚至愿意砸更多的钱,各家公司也推出了一大堆乱七八糟的模型,这些模型使用的算法和技术和chatgpt也没有本质差别,都是80年代那一波神经网络学术成果大爆发的产物,但就是一个能打的都没有呢?
因为算力不够。
为什么算力不够?因为没有我们的英伟达,没有我们的台积电。
那为什么没有我们的英伟达和我们的台积电呢?
是中国的玩家不够多?游戏市场不够广阔?还是中国的玩家对游戏体验没有极致追求,不喜欢8K144Hz全特效再加光线追踪?
显然也不是。
那么原因究竟在哪儿呢?