深度求索之后,一种古老的AI方法重新获得关注——彭博社
Shirin Ghaffary
深度求索标志。
摄影师:安德烈·鲁达科夫/彭博社深度求索的成功引发了对一种名为"专家混合"人工智能技术的重新关注。但首先…
需要了解的三件事:
• OpenAI即将完成由软银领投的400亿美元融资• 据TD Cowen称,微软放弃数据中心项目• 科技巨头与外国领导人敦促特朗普重新考虑AI芯片限制
高性价比的AI方法
如果你现在参加旧金山AI圈的晚宴对话,很有可能会听到有人在讨论"MoE"。
这个缩写代表专家混合法,这是一种已有数十年历史的人工智能系统构建方法,由于中国AI开发者而受到更多关注。深度求索特别指出该技术是其构建更高效R1模型的关键,该模型震撼了硅谷。最近,马云支持的蚂蚁集团表示已采用中国芯片训练出采用专家混合法的新模型,同时大幅降低了开发成本。
采用这种方法,开发者将人工智能系统拆分为不同的子网络或"专家模块",每个模块针对特定任务领域进行专项优化。混合专家模型被视为提升AI计算效率的有效途径——这对受限于高端芯片获取的中国开发者而言尤为重要。
在混合专家系统中,只需激活与用户查询相关的专家网络,而非调用整个神经网络。这使得开发者能在不增加过多算力消耗的情况下,通过增加参数数量(即决定AI模型行为与智能水平的变量)来提升模型性能。
威斯康星大学麦迪逊分校教授Grigorios Chrysos(其研究团队曾发表相关论文)表示:“这与现实世界中专家协作的模式非常相似。就像数学专家可能同时精通其他领域,但任何人都不可能通晓所有学科。”
该技术理念可追溯至1991年题为《自适应局部专家混合》的机器学习论文,文中提出构建由多个专业子网络组成的AI系统,每个网络专注处理特定训练数据。系统包含"专家网络"和根据任务分配流量的"门控网络"。
但该技术历经25年才获得广泛关注。2017年谷歌研究团队发表论文,将混合专家模型应用于支撑现代AI聊天机器人的大规模语言模型,并解决其与现代硬件芯片的适配问题。即便如此,由于技术复杂性,该方法并未立即在语言模型领域普及。
“由于技术较为复杂,前沿模型花了几年时间才采用这一方法,”论文第一作者诺姆·沙泽尔表示。他离开谷歌联合创立了Character.AI公司后又于去年回归这家搜索巨头。“可以肯定的是,目前谷歌所有前沿模型都采用专家混合架构,至少从Gemini 1.5开始就是如此,”现任谷歌DeepMind工程副总裁兼Gemini联合负责人的沙泽尔补充道。
诺姆·沙泽尔摄影师:温妮·温特迈尔/《华盛顿邮报》AI专家推测其他主流模型开发商多数也在使用该技术,只是较少公开披露。例外是法国AI初创公司Mistral,其去年发布了名副其实的"专家混合"模型,该模型基于MoE技术路线。
“虽然无法确知所有AI实验室的具体架构,但我推测它们都在使用某种形式的专家混合技术,”斯坦福大学计算机科学教授珀西·梁表示。
不过该方法存在局限。开发者无法刻意编程让模型专精于特定领域(比如地缘政治或Python编程),这些专家子网络是在训练过程中自然形成的,类似于神经网络的整体发展方式。
在性能方面也存在权衡。Shazeer表示,一个仅激活部分网络的“稀疏”混合专家模型(MoE),可能不如激活整个神经网络的同等规模“密集”模型。“如果你有一个大脑却只使用其中的10%,那肯定不如完全使用整个大脑来得高效。”不过MoE方法能让大模型消耗更少的算力。在深度求索公司宣称以美国头部开发商极小成本构建出竞争力模型后,这种提升模型效率的潜力对硅谷的吸引力愈发凸显。
“由于数据和计算资源的限制,我们从未想过能将这种方法扩展到如今数千名专家的规模。”Chrysos表示,“我认为未来一年学术界将在这个领域迎来爆发式发展。”
**关于AI有疑问?**欢迎邮件联系Shirin Ghaffary,我将在后续通讯中为您解答。
OpenAI的病毒式传播时刻
就在谷歌发布最新Gemini AI模型的同一天,OpenAI通过一场突袭发布会成功抢镜,展示了ChatGPT中更强大的图像生成功能。该公司员工以日本著名动画工作室吉卜力(代表作《千与千寻》)的风格生成自画像后,网络迅速涌现各种吉卜力风AI创作——从情侣卡通肖像到历史名场面改编。更具争议的是,白宫官方账号发布了女性被拘押的卡通图像。
OpenAI迎来了其病毒式传播时刻,以至于公司系统不堪重负。“我们的GPU正在融化,“首席执行官萨姆·奥尔特曼周四上午发帖表示。但在此过程中,这次发布也再次引发了版权问题。从法律上讲,AI公司能在多大程度上使用包括卡通工作室在内的独特创意知识产权,仍是一个悬而未决的问题。一些人还重新翻出了吉卜力工作室联合创始人宫崎骏的一段旧视频,其中他对有人向他展示的AI辅助动画表示厌恶,称其"令人作呕”,是"对生命本身的侮辱”。
本周人类语录
“我开始看到某种泡沫的苗头。”
蔡崇信阿里巴巴集团主席
蔡崇信警告数据中心建设可能形成泡沫,认为建设速度可能超过AI服务的初始需求。他表示,一些规划中的项目在没有确保"使用"协议的情况下就开始筹集资金。“当人们开始投机性地建设数据中心时,我开始感到担忧。现在有很多人冒出来,基金涌现,筹集数十亿或数百万资金。”### 关注人物
彭博社的朱莉娅·洛夫解释了谷歌的伊丽莎白·里德的实验性方法如何帮助公司应对生成式AI的挑战者。她将与卡罗琳·海德一起出现在"彭博科技"节目中。### 深度学习
更多彭博社资讯
订阅《科技内参》及更多彭博科技简报:
- 《网络公报》——揭秘黑客与网络间谍的暗黑世界
- 《游戏进行时》——深入电子游戏产业
- 《开机启动》——苹果独家消息与消费科技动态
- 《荧幕时间》——直击好莱坞与硅谷的碰撞
- 《声音片段》——播客、音乐产业与音频趋势报道