Yandex开发出压缩大型语言模型新方法,有望将AI部署成本降低8倍
<article><section data-type=“rtext”><p>【环球网科技综合报道】7月31日消息,Yandex宣布,其研发团队与来自IST Austria、NeuralMagic和KAUST的研究人员合作,开发了两种针对大型语言模型的创新压缩方法:语言模型的加性量化 (AQLM) 和 PV-Tuning。这两种方法结合使用时,可将模型大小减少多达8倍,同时保持95%的响应质量。</p><p><img data-alt=“图源: IC Photo” src="//img.huanqiucdn.cn/dp/api/files/imageDir/92434784f5f2115ce3977c1e9d25d6e7u0.jpeg?imageView2/2/w/750" /></p><p>根据介绍,AQLM利用传统上用于信息检索的加性量化来进行大型语言模型的压缩,可将每个模型参数的比特数减少到2-3比特,该方法可在极端压缩的情况下保持甚至提高模型的准确性,从而使得在家用电脑等日常设备上部署大型语言模型成为可能。这也显着减少了内存消耗。AQLM的关键创新包括权重矩阵的学习加性量化,以适应输入的可变性,以及对跨层块的码本参数进行联合优化。这种双重策略使 AQLM 能够超越其他压缩技术,在该领域树立了新的基准。</p><p>PV- Tuning是一个与表示无关的框架,它概括并改进了现有的微调策略,可解决模型压缩过程中可能出现的错误。PV-Tuning在有限情况下提供收敛保证,并且在 Llama 和 Mistral 等高性能模型上用于1-2 位矢量量化时,其性能已被证明优于以前的方法。通过利用 PV-Tuning,研究人员首次实现了 Llama 2 模型每个参数 2 比特的帕累托最优量化。</p><p>Yandex方面表示,当AQLM和PV-Tuning结合使用时,即使在有限的计算资源下,也能提供高质量响应的紧凑模型。</p><p>此外,AQLM 和 PV-Tuning 使得在计算资源有限的设备上离线部署模型成为可能,从而为智能手机、智能音箱等提供了新的使用场景。通过集成先进的大语言模型,用户可以使用文本和图像生成、语音辅助、个性化推荐,甚至实时语言翻译,而无需激活互联网连接。且因为所需的计算更少,使用这些方法压缩的模型运行速度可提高多达4倍。</p><p>目前,全球的开发人员和研究人员已可以使用 AQLM 和 PV-Tuning。</p></section></article>