”买越多省越多”!NVIDIA高速模型训练将助自然语言突破瓶颈_风闻
TechEdge科技边界-2019-08-15 23:04
图像识别与自然语言处理是目前最普遍的两大AI技术,然而图像识别成熟度已经极高,在某些领域可达到接近百分之百的识别率,但自然语言的技术成熟度却远远落后于图像识别技术。
这主要还是因为自然语言不能单纯依靠类神经网络的方式来处理,对类神经网络而言,要从一个连续不断的句子中理解前后文的关连,并抽取出正确的命令,其复杂性极高。由于自然语言普遍存在的不确定性,即消除歧义,涵盖词法、句法、语用分析中存在的歧义问题。在每一个层次中或是在下一层次向上一层次转变中都存在着歧义和多义现象,即形式上一样的一段字符串,在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义。
也因为处理上的极限,包括Amazon、Google、Facebook以及苹果,都在基于自然语言的语音助理处理上跌过跤。
而这些大厂的共通点,就是自然语言的处理并不是都完全交给AI,而是必须由人工进行侧录、听写,不论是取代机器的判断,或者是修正机器的处理,虽然落实了人工智能中的人工部份,但这么一来却与其宣传内容截然不同,另一方面,也造成侵犯隐私的争议。
换言之,你对机器讲的命令、订单,或者是约见某人,可能都已经被云端那边的工作人员彻底掌握,而这也造成消费者的恐慌,在各国相关隐私调查机构的介入之后,也陆续改进其侧录行为。
而前不久科大讯飞在同步翻译使用了人工,同样产生造假的争议,看起来也是无可奈何的作法。但重点是,即便目前自然语言缺不了人工介入,厂商有向消费者揭露后端处理方式的义务,而不是使用虚假宣传。
但如果还需要人工介入机器的自然语言处理,那就算不上人工智能了。
根据Juniper Research预测,未来四年内,仅数字语音助理将从25亿增长到80亿。 根据Gartner的说法,所有客户服务互动的15%将在2021年由AI完全处理,比2017年增加了四倍。这代表基于自然语言技术的相关服务产值成长空间极大,而如果解决不了目前的瓶颈,那么就很难达成这样的营收成长目标。
NVIDIA应用深度学习研究小组副总裁Bryan Catanzaro表示,虽然该领域的进展在研究和商业领域都在迅速发展,但教授计算机与人类进行真正高质量的对话仍然是人工智能更加雄心勃勃的目标之一。
根据Catanzaro的说法,主要需要的是能够理解人类对话中固有的细微差别的大型模型。理解上下文的能力也需要具有更多参数的更复杂的模型。并且能够快速训练这些模型,以便研究人员能够在合理的时间范围内对其进行改进。
在推理方面,所需要的是实时响应,通常为10毫秒或更短。如果计算模型的答案花费的时间太长,人们会觉得响应非常缓慢,那么交互就会显得不自然,实用性也会大减。
今天流行的NLP模型是BERT,它代表Transformer的双向编码器。对变换器的引用是指一种可以将输入序列转换为输出序列的神经网络。然而在BERT的情况下,模型在两个方向上进行训练,也就是模型可以从文字左侧和右侧的内容同时评估文本。不少AI社群中的开发者认为BERT是NLP的转折点,相当于ResNet在2015年为图像识别所做的事情。
最近,NVIDIA宣布了自然语言模型训练方案,通过使用DGX-2 SuperPOD,可以在一个小时内训练好BERT模型。
过去如果要完成同样规模的模型训练,在多GPU服务器上需要几天时间。而即使在具备16颗GPU的DGX-2上也需要2.8天。但由于SuperPOD由92个DGX-2系统组成,因此NVIDIA能够在1,472个GPU上几乎线性地扩展训练,并且在不到一个小时的时间内完成任务。
当然,92部DGX-2服务器肯定不便宜,但套句老黄最爱说的话:买越多省越多。毕竟时间就是金钱,省越多训练时间,越快能把模型布建至服务当中,那么等同于可以早点开始进行服务。
BERT是由谷歌的研究人员在2018年开发的,但从那时起,不同公司开发了许多变体,包括Facebook(RoBERTa),阿里巴巴(Perseus-BERT)和微软(MT-DNN)。XLNet由卡内基梅隆大学和谷歌的研究人员开发,借用了BERT的一些技术,但也集成了Transformer-XL的其他技术。
部份模型在通用语言理解评估(GLUE)基准测试中表现已经优于人类,这是一组用于评估NLP系统的指标。以下是最新的十大模型GLUE排行榜,人类基线现在排在第四位。
BERT-Large模型包含大约3.4亿个参数,在Megatron项目下并在其DGX-2 SuperPOD超级计算机上运行,NVIDIA构建了一个具有83亿个参数的复杂网络。NVIDIA对此表示,如果要完成之前Google、Amazon或Facebook所完成不了的自然语言任务,就必须生成这么复杂的模型。
在推理方面,NVIDIA指出他们通过使用TensorRT优化代码的T4 GPU,在BERT-Base模式下使用SQuAD数据集,可以在2.2毫秒内的响应时间进行传递,这完全在10毫秒的会话阈值内。在他们的对比测试中,如果使用CPU平台,则会花费40ms来完成相同的推理任务。当然,基于FPGA的解决方案和针对AI推理的各种定制ASIC理论上可以提供类似或更好的的延迟表现。