让位吧,大型语言模型小型人工智能模型将是下一个大趋势 - 彭博社
Rachel Metz
智能手机上的ChatGPT聊天界面。
摄影师:Gabby Jones/Bloomberg
摄影师:David Paul Morris/Bloomberg多年来,像谷歌这样的科技巨头和像OpenAI这样的初创公司一直在竞相构建越来越大、成本更高的人工智能模型,使用大量的在线数据。部署在像ChatGPT这样的聊天机器人中,这项技术可以处理各种复杂的查询,从编写代码和规划旅行到撰写关于冰淇淋的莎士比亚十四行诗。马克·麦奎德正在押注于一种不同的策略。他共同创立的初创公司Arcee.AI帮助公司训练和推出一种越来越受欢迎且体积更小的人工智能方法:小型语言模型。Arcee的软件并不是试图做ChatGPT能做的所有事情,而是帮助完成一组更有限的日常企业任务——例如,构建一个仅处理与税务相关问题的服务——而不需要那么多数据。“我说99%的商业用例,你可能不需要知道1968年谁赢得了奥运会金牌,”麦奎德说。位于迈阿密的Arcee是越来越多重新思考科技行业传统智慧的公司之一,即更大并不总是更好。受到数十亿美元风险投资的推动,初创公司相互竞争,开发更强大的大型语言模型,以支持人工智能聊天机器人和其他服务,Anthropic首席执行官达里奥·阿莫代伊预测训练模型的成本最终将达到1000亿美元,而今天是1亿美元。
这种思维方式当然仍然存在,但像 Arcee、Sakana AI 和 Hugging Face 这样的初创公司现在通过采用更小且更实惠的方法来吸引投资者和客户。大型科技公司也在学习如何思考小型化。Alphabet Inc. 的 Google、Meta Platforms Inc.、OpenAI 和 Anthropic 最近都发布了比其旗舰大型语言模型(LLMs)更紧凑、更灵活的软件。围绕小型模型的势头受到多种因素的推动,包括新的技术进步、对大型语言模型所需的巨大能源需求的日益关注,以及为企业提供更广泛的 AI 选项以满足不同用途的市场机会。小型语言模型不仅对科技公司来说更便宜,而且对商业客户使用也更便宜,降低了采用的门槛。鉴于投资者对 AI 风险投资的高成本和不确定回报越来越担忧,更多科技公司可能会选择这条道路。
Arcee 的首席执行官 Mark McQuade来源:Arcee“一般来说,小型模型是非常合理的,”Hugging Face 的联合创始人兼首席科学官 Thomas Wolf 说,该公司制作 AI 软件并为其他公司托管。“只是很长一段时间我们不知道如何做好它们。”
Hugging Face已经磨练了使用更精心策划的数据集和更高效地训练AI模型的技术,Wolf说。7月份,这家初创公司发布了一组三个开源的通用小型模型,称为SmolLM,这些模型足够紧凑,可以直接在智能手机和笔记本电脑上使用。这可能使得运行AI软件比连接到远程云服务(这是大型模型所必需的)更快、更便宜和更安全。对更小替代品的需求显而易见。Arcee.AI上个月融资2400万美元的A轮,训练了一个可以回答汤森路透税务问题的小型模型,并为技能提升公司Guild构建了一个职业教练聊天机器人。这两家公司通过自己的亚马逊网络服务账户运行这些模型。Guild与Target和Disney的员工合作,早在一年多前就开始考虑使用像OpenAI的ChatGPT那样的大型语言模型,以便为更多人提供职业建议,而不仅仅是依靠人类教练团队。根据Guild的AI负责人Matt Bishop的说法,虽然ChatGPT表现尚可,但并没有达到公司所寻求的感觉。Arcee的小型语言模型目前正在被Guild测试,该模型是在数十万次匿名对话中训练的,这些对话是在其人类教练和用户之间进行的,Bishop说,这远低于典型大型语言模型所使用的总数据量。他说,这项服务“真正体现了我们的品牌、我们的语气、我们的精神”,并且与ChatGPT相比,Guild的员工在93%的情况下更喜欢该模型的响应。“当你的模型是一个小型模型时,你可以更狭窄和专注,真正聚焦于任务和用例,”McQuade说,“而不是拥有一个可以做任何你需要做的事情的模型。”OpenAI和其他大型AI公司一样,也在多样化其产品,并试图在各个方面竞争。上个月,OpenAI推出了其旗舰GPT-4o模型的“迷你”版本,作为客户更高效和更实惠的选择。OpenAI API的产品负责人Olivier Godement表示,他预计开发者将使用GPT-4o迷你来处理摘要、基本编码和提取数据。同时,该公司的大型、昂贵模型将继续用于更复杂的任务。“我们当然希望继续开发前沿模型,推动这一领域的进步,”Godement之前对彭博新闻说。“但我们也希望拥有最好的小型模型。”即使在科技行业接受小型模型的同时,并不是每个人都同意如何定义它们。McQuade表示,这个术语是“主观的”,但对他来说,它指的是参数数量在700亿或更少的AI系统,这是指模型在训练过程中捕获的变量总数。按照这个标准,Hugging Face的SmolLM模型参数范围从1.35亿到17亿,几乎是微观的。(如果这些数字听起来仍然很大,考虑到Meta的Llama AI模型有三种尺寸,参数范围从80亿到4000亿。)与AI快速发展的许多其他方面一样,小型模型的标准可能会不断变化。东京小型模型初创公司Sakana的联合创始人兼首席执行官David Ha表示,几年前看起来极其庞大的AI模型如今看起来“适中”。“大小总是相对的,”Ha说。
微软公司和Palantir技术公司正在结合他们的政府云计算和人工智能工具,旨在向美国国防和情报机构销售软件,包括OpenAI的GPT-4,用于机密任务。
作为协议的一部分,Palantir将其产品与微软的Azure云服务集成,面向政府客户,包括用于机密用途的工具,并将在这些保密云中采用微软的Azure OpenAI服务。这两家公司周四在一份声明中表示,产品的结合将使美国国防工作人员能够处理后勤、合同和行动计划等任务。