OpenAI、谷歌和Anthropic正在努力构建更先进的人工智能 - 彭博社

Rachel Metz, Shirin Ghaffary, Dina Bass, Julia Love

2024-11-13

ChatGPT虚拟助手的标志。

摄影师：安德烈·鲁达科夫/彭博社OpenAI正处于一个里程碑的边缘。这家初创公司在九月份完成了一轮针对一个巨大的新人工智能模型的初步训练，他们希望这个模型能够显著超越之前版本的技术，并更接近于其超越人类的强大人工智能目标。

但是，这个在内部被称为“猎户座”的模型并没有达到公司的期望表现，根据两位熟悉此事的人士透露，他们在讨论公司事务时要求匿名。例如，截至夏末，猎户座在尝试回答未经过训练的编码问题时表现不佳，这些人表示。总体而言，猎户座目前并不被认为是OpenAI现有模型的重大进步，GPT-4与GPT-3.5之间的差距也不大，后者是最初驱动公司旗舰聊天机器人的系统。

OpenAI并不是唯一最近遇到障碍的公司。在经历了数年以惊人的速度推出越来越复杂的人工智能产品后，三家领先的人工智能公司现在在构建新模型的昂贵努力中看到回报减少。根据三位知情人士的说法，谷歌即将推出的Gemini软件版本未能达到内部预期。与此同时，Anthropic的长期期待的Claude模型的发布时间表也出现了延迟，名为3.5 Opus。

这些公司面临着几个挑战。寻找新的、未开发的高质量人造训练数据源变得越来越困难，这些数据可以用来构建更先进的人工智能系统。两位人士表示，Orion的不理想编码表现部分是由于缺乏足够的编码数据进行训练。同时，即使是适度的改进也可能不足以证明构建和运营新模型所需的巨大成本是合理的，或者能够满足将产品品牌化为重大升级所带来的期望。

有很多潜力可以使这些模型变得更好。根据其中一位人士的说法，OpenAI已经让Orion经历了一个持续数月的过程，通常被称为后训练。这个程序是在公司公开发布新的人工智能软件之前的常规步骤，包括纳入人类反馈以改善响应，并细化模型与用户互动的语气等。但Orion仍未达到OpenAI希望的水平，以便向用户发布，而该公司不太可能在明年初之前推出该系统，一位人士表示。

这些问题挑战了近年来在硅谷盛行的信条，特别是在OpenAI发布ChatGPT两年前。科技行业的许多人押注于所谓的规模法则，认为更多的计算能力、数据和更大的模型将不可避免地为人工智能的更大飞跃铺平道路。最近的挫折也引发了对人工智能重投资的怀疑，以及这些公司积极追求的一个总体目标的可行性：人工通用智能。这个术语通常指的是假设的人工智能系统，这些系统在许多智力任务上能够匹配或超越人类。OpenAI和Anthropic的首席执行官之前曾表示，AGI可能只需几年时间。

“AGI泡沫正在稍微破裂，”AI初创公司Hugging Face的首席伦理科学家玛格丽特·米切尔说。她表示，“不同的训练方法”可能是让AI模型在各种任务上真正有效所需的——这一观点得到了多位人工智能专家对彭博新闻的呼应。

Hugging Face的首席伦理科学家玛格丽特·米切尔表示“AGI泡沫正在破裂。”摄影师：Chona Kasinger/Bloomberg在一份声明中，谷歌DeepMind的发言人表示，公司对Gemini的进展“感到满意，我们会在准备好时分享更多信息。”OpenAI拒绝发表评论。Anthropic拒绝发表评论，但将彭博新闻引导至周一发布的首席执行官达里奥·阿莫代伊的五小时播客。

“人们称之为扩展法则。这是一个误称，”他在播客中说。“它们不是宇宙法则。它们是经验规律。我会押注于它们的持续，但我对此并不确定。”

阿莫代伊表示，在未来几年内，有“很多事情”可能会“ derail”实现更强大AI的过程，包括“我们可能会数据耗尽”的可能性。但阿莫代伊表示，他对AI公司能够克服任何障碍持乐观态度。

性能停滞

支撑ChatGPT和一波竞争AI聊天机器人的技术是建立在大量社交媒体帖子、在线评论、书籍和其他从网络上自由抓取的数据之上的。这足以创造出能够输出聪明的论文和诗歌的产品，但构建比诺贝尔奖得主更聪明的AI系统——正如一些公司希望做到的——可能需要除维基百科帖子和YouTube字幕之外的数据来源。

OpenAI，特别是，已经与出版商签署协议，以满足对高质量数据的需求，并适应来自出版商和艺术家对用于构建生成性人工智能产品的数据日益增长的法律压力。一些科技公司也在招聘具有研究生学位的人，以标记与他们自己专业相关的数据，例如数学和编码。目标是使这些系统在回应特定主题的查询时表现得更好。阅读更多：了解你的AGI与GPT的区别？人工智能词汇表

这些努力的进展比简单地抓取网络要慢且成本更高。科技公司也在转向合成数据，例如计算机生成的图像或文本，旨在模仿真实人类创作的内容。但在这里也存在限制。“这与数量关系不大，而是与数据的质量和多样性有关，”新企业协会的人工智能战略负责人Lila Tretikov说，她曾是微软的副首席技术官。“我们可以合成生成数量，但在没有人类指导的情况下，尤其是在语言方面，我们很难获得独特的高质量数据集。”

关键模型发布的日期

来源：彭博社

尽管如此，人工智能公司仍在追求更多即更好的策略。在他们努力构建接近人类智能水平的产品的过程中，科技公司正在增加用于训练新模型的计算能力、数据和时间——并在此过程中推高成本。Amodei表示，今年公司将花费1亿美元来训练一个前沿模型，而这个数字将在未来几年达到1000亿美元。

随着成本上升，每个正在开发的新模型的风险和期望也随之增加。马萨诸塞州沃尔瑟姆的本特利大学数学副教授诺亚·吉安西拉库萨表示，人工智能模型将不断改进，但这种改进的速度是值得怀疑的。

“我们曾对短暂的快速进展感到非常兴奋，”他说。“这根本无法持续。”

硅谷的难题

这个难题在最近几个月在硅谷变得更加明显。今年三月，Anthropic发布了一组三个新模型，并表示最强大的选项Claude Opus在关键基准测试中超越了OpenAI的GPT-4和谷歌的Gemini系统，例如研究生级别的推理和编码。

在接下来的几个月里，Anthropic对另外两个Claude模型进行了更新——但没有对Opus进行更新。“那是大家都很兴奋的一个，”独立人工智能研究员西蒙·威利森说。到十月，威利森和其他行业观察者注意到与3.5 Opus相关的措辞，包括指示其将在“今年晚些时候”到来和“即将推出”的信息，从一些页面上被删除了。

根据两位熟悉此事的人士的说法，Anthropic与其竞争对手一样，在幕后面临开发3.5 Opus的挑战。经过训练，Anthropic发现3.5 Opus在评估中的表现优于旧版本，但并没有达到应有的水平，考虑到模型的大小以及构建和运行的成本，其中一位人士表示。

一位Anthropic发言人表示，关于Opus的语言已从网站上删除，这是出于只展示可用和经过基准测试模型的市场决策。被问及Opus 3.5是否仍会在今年发布时，发言人指向了Amodei的播客言论。在采访中，首席执行官表示Anthropic仍计划发布该模型，但多次拒绝承诺时间表。

Anthropic首席执行官Dario Amodei表示，在未来几年内，有“很多事情”可能会“ derail”实现更强大AI的进程。“我们可能会耗尽数据，”他说。摄影师：Benjamin Girette/Bloomberg科技公司也开始考虑是否继续提供他们的旧AI模型，也许会进行一些额外的改进，或者承担支持昂贵的新版本的成本，而这些新版本的表现可能并没有太大改善。

谷歌已发布其旗舰AI模型Gemini的更新，以使其更有用，包括恢复生成人物图像的能力，但在基础模型的质量上几乎没有引入重大突破。与此同时，OpenAI则专注于今年的一些相对渐进的更新，例如新的语音助手功能，使用户能够与ChatGPT进行更流畅的口语对话。

最近，OpenAI推出了一个名为o1的模型的预览版本，该模型在回应查询之前花费额外时间计算答案，这一过程公司称之为推理。谷歌正在研究类似的方法，目标是处理更复杂的查询，并随着时间的推移产生更好的响应。

科技公司在将过多珍贵的计算资源用于开发和运行可能并没有显著改善的大型模型时，也面临着重要的权衡。

“所有这些模型变得相当复杂，我们无法像希望的那样并行发布这么多东西，”OpenAI首席执行官山姆·阿尔特曼在最近的问我任何事会议上回应一个问题时写道。关于如何决定如何使用其可用的计算能力，他表示，ChatGPT的制造商面临着“许多限制和艰难的决定”。

阿尔特曼表示，OpenAI将在今年晚些时候推出一些“非常好的版本”，但该列表不会包括GPT-5——许多AI行业人士预计该公司会在GPT-4之后使用这个名称，而GPT-4是在18个月前推出的。

与谷歌和Anthropic一样，OpenAI现在将注意力从这些模型的规模转向更新的用例，包括一类名为代理的AI工具，可以代表用户预订航班或发送电子邮件。“我们将拥有越来越好的模型，”阿尔特曼在Reddit上写道。“但我认为，感觉像下一个巨大突破的事情将是代理。”