AI“模型崩溃”:为何研究人员发出警报 - 彭博社
Evan Gorelick
插图:约翰·普罗文彻
乔纳森·罗斯,Groq首席执行官。
摄影师:大卫·保罗·莫里斯/彭博社在科技行业的某些角落,培训人工智能系统使用更多的在线数据将使这些工具随着时间的推移变得更好——可能在某些任务上超越人类,这已成为一种信条。
但是一篇 新的研究论文 对这种方法提出了一些质疑,并对人工智能系统开发中可能存在的致命缺陷发出了警告。在这篇于七月发表在《自然》上的论文中,研究人员发现,当人工智能模型在包含人工智能生成内容的数据上进行训练时——这在未来可能会越来越普遍——它们最终的性能会下降,这种现象被称为“模型崩溃”。
这些发现增加了对 日益增长的怀疑,关于人工智能的长期发展轨迹,并且在华尔街已经质疑大型科技公司在人工智能开发上的 巨额投资是否最终会获得回报的时刻出现。
什么是模型崩溃?
像 ChatGPT 这样的 AI 聊天机器人是由 大型语言模型 驱动的,这些模型在几乎不可想象的海量数据上进行训练(数万亿个单词,在某些情况下)从网页、文章、评论区等中提取。凭借这些庞大的数据集,AI 公司能够构建出能够对用户查询给出令人震惊的相关响应的产品。
但一些 AI 观察者提出了担忧,认为如果这些模型训练于由 AI 而非实际人类生成的内容,它们最终会显著降低准确性并“崩溃”。一篇 2023 年的论文 显示,AI 生成的人类图像在模型重新训练“甚至少量自身创作”的内容后变得越来越扭曲。研究人员将这一现象比作 AI 系统被自身作品“毒害”。
新论文发现了什么?
在新的《自然》论文中,来自牛津、剑桥和其他大学的研究人员发现,使用 AI 生成内容训练的 AI 模型会产生意想不到的、并且可能是无意义的结果。正如研究人员 解释的那样,一个模型的错误会被下一个模型加剧,使 AI 进一步远离现实,直到提示基本上产生无意义的内容。
在一个例子中,作者展示了关于历史英国建筑的提示在输入到经过多次 AI 生成内容重新训练的大型语言模型中时,变成了一场关于杰克兔的难以理解的讨论。
“我们证明,如果我们要维持从网络上抓取的大规模数据训练的好处,[模型崩溃]必须被认真对待,”研究人员在研究中写道。
模型崩溃的风险有多大?
虽然模型崩溃在很大程度上仍然是一个理论问题,但《自然》论文指出,未来的AI模型“将不可避免地在其前身生成的数据上进行训练”,因为AI生成的写作和图像在网络上传播并渗入在线数据集。
包括Meta、谷歌和Anthropic在内的科技公司也在尝试使用所谓的“合成”数据训练模型,这些数据是他们利用生成性AI创建的。从理论上讲,合成选项帮助AI公司满足对数据的无底需求,同时避免了抓取各种网站信息所带来的法律、伦理和隐私相关问题。但模型崩溃的前景可能会打乱这些计划。
有解决办法吗?
论文的发现可能只会增加AI公司获取高质量人类生成数据的紧迫性——但这样做可能代价高昂。ChatGPT的制造商OpenAI已经花费了数百万美元与出版商如新闻集团和阿克塞尔·斯普林格公司建立合作关系,以许可他们的内容来训练其模型。目前尚不清楚这些数据是否足以满足科技公司的需求。
根据研究人员的说法,AI开发者必须保留对未被AI内容污染的原始训练数据的访问权是至关重要的。但在大规模上跟踪AI生成内容并没有简单的方法。为此,研究人员建议那些构建AI模型的人应努力实现“社区范围的协调”,以了解他们在线抓取数据的来源。
接下来阅读这个: 人工智能制造的生物武器是华盛顿最新的安全痴迷
人工智能初创公司Groq Inc.已筹集6.4亿美元的新资金,突显了投资者对AI系统芯片创新的热情。
该初创公司设计半导体和软件,以优化AI任务的性能,旨在帮助缓解对AI计算能力的巨大瓶颈。在这笔交易中,该公司估值为28亿美元,交易由黑岩公司资金主导,并得到了思科系统公司和三星电子公司的投资部门的支持。