《华尔街日报》:ChatGPT等人工智能技术依赖于你的贡献
Christopher Mims
插图:伊万杰琳·加拉格尔如果你曾发布过博客、在Reddit发帖或在开放网络的任何地方分享过内容,那么你很可能为最新人工智能的诞生贡献了一分力量。
谷歌的Bard聊天机器人、OpenAI的ChatGPT、微软由OpenAI驱动的必应版本,以及众多初创公司采用这些及其他AI语言模型开发的类似工具——如果没有网络上免费提供的海量文本,这些聪明的自动写作工具都不可能存在。
如今,网络内容再次成为争夺对象,各方势力试图瓜分这一无可替代的丰富信息源,其价值已因新型技术被重新定义——这种局面自早期搜索引擎大战以来还未曾出现过。
那些无意中提供这些数据的科技和媒体公司正逐渐意识到,这些数据对训练最新一代基于语言的AI至关重要。作为OpenAI宝贵数据源的Reddit近日宣布将开始向AI公司收取数据访问费用。OpenAI拒绝置评。
推特也于近期开始对数据访问服务收费,这一变化影响了推特业务的诸多方面,包括AI公司对其数据的使用。代表出版商(包括《华尔街日报》母公司道琼斯)的新闻媒体联盟在本月一份文件中声明,当公司使用其成员作品训练AI时,应当支付许可费。
“对我们来说,真正关键在于恰当的归属。”Stack Overflow首席执行官普拉桑特·钱德拉塞卡表示。该网站是程序员互相解答问题的平台。他的公司还计划开始向大型AI公司收费,以获取用户在该公司网站上的工作成果。“我们真心希望确保那些花费大量精力回答问题的Stack Overflow社区成员,能对他们过去15年的努力获得应有的认可。”
我之前曾撰文讨论过,像OpenAI的DALL-E 2这样吸收并输出图像的人工智能服务,如何面临工业规模知识产权盗窃的指控。创建这些系统的公司目前正因这些指控卷入诉讼。而AI生成文字引发的争议可能更为重大,不仅涉及补偿和署名问题,还关乎隐私。
这场争议源于AI聊天机器人的构建方式。驱动这些机器人的所谓大型语言模型算法,必须通过吸收和处理海量现有语言来训练,以试图模仿人类的言语内容和表达方式。这类数据不同于我们通常认为的互联网商品——比如Facebook母公司Meta Platforms等公司用于广告定位的行为和个人信息。
这些数据是各类服务的人类用户创造性产出的成果,例如Reddit用户发布的数亿条帖子。只有在网络上,你才能找到如此大规模的人类生成文字库。若没有这些数据,当今所有基于聊天的AI及相关技术都将无法运作。
2021年,非营利组织艾伦人工智能研究所的科学家杰西·道奇在一篇论文中发现,维基百科和无数大小媒体受版权保护的新闻文章都被收录在一个最常用的网络抓取内容数据库中。谷歌和Facebook都曾使用该数据集训练大语言模型,OpenAI也使用过其自建的类似数据库。
推特近期开始对包括AI公司在内的数据访问服务收费。图片来源:艾米·奥斯本/法新社/盖蒂图片社OpenAI已不再披露其数据来源,但该公司2020年发表的论文显示,其大语言模型使用了从Reddit抓取的帖子来筛选和改进用于训练AI的数据。
Reddit发言人蒂姆·拉特施密特表示,虽然尚不确定向企业收取数据访问费用能带来多少收入,但确信其拥有的数据能提升当前某些大语言模型的性能。
据《华尔街日报》上月报道,出版业高管们正在研究其内容被用于训练ChatGPT等AI工具的程度、应获补偿的方式以及法律途径。但该组织总法律顾问丹妮尔·科菲指出,截至目前,谷歌、OpenAI、微软等大型AI聊天引擎运营商均未就使用新闻媒体联盟成员内容作为训练数据达成任何付费协议。
推特未回应置评请求。
微软拒绝发表评论。谷歌发言人表示,该公司"长期致力于帮助创作者和出版商实现内容价值,并加强与受众的联系。根据我们的人工智能原则,我们将继续以负责任和合乎道德的方式在这一领域创新。“他还表示"目前仍处于早期阶段”,谷歌正在就如何构建有益于开放网络的人工智能征求各方意见。
法律与伦理的泥潭
复制开放网络上的数据(即网络爬取行为)在某些情况下是合法的,尽管企业仍在就具体操作方式和适用情形持续争论。
大多数在网络上公开数据的公司和组织,其初衷是希望内容能被搜索引擎发现和索引,从而引导用户访问原始内容。
但复制这些数据来训练可能取代原始内容需求的人工智能,则完全是另一回事。
华盛顿大学计算语言学家艾米丽·M·本德博士指出,那些通过网络爬取训练AI的科技公司奉行的是’我们能拿走就是我们的’原则。她补充道,将书籍、杂志文章、个人博客的深情随笔乃至专利、科学论文和维基百科内容转化为聊天机器人的答案时,这些材料与来源的链接就被剥离了。这也使得用户更难验证聊天机器人提供的信息——对于这些经常编造不实内容的系统而言,这是个严重问题。
这些大规模的网络抓取还可能吞噬我们的个人信息。Common Crawl的数据科学家兼工程师塞巴斯蒂安·纳格尔指出,即便你多年前撰写后又删除的博客文章,仍可能存在于OpenAI的训练数据中——该公司利用多年全网抓取的数据来训练其人工智能系统。
作为非营利组织的Common Crawl十余年来持续抓取开放网络的重要部分,并将其数据库免费提供给研究人员。该数据库也被谷歌、Meta、OpenAI等企业用作训练人工智能的初始数据集。
谷歌和微软等公司的搜索引擎索引不同,班德博士解释道,要从已训练的人工智能中删除个人信息需要重新训练整个模型。道奇博士补充说,由于重新训练大型语言模型成本极高(因所需计算能力巨大,成本可能达数千万美元),即使用户能证明AI使用了其个人数据,企业也不太可能这样做。
但他同时指出,大多数情况下,要让一个通过含个人信息数据训练出的人工智能反刍这些信息也很困难。OpenAI表示已调整其聊天系统以拒绝提供个人信息的请求。欧盟与拜登政府都在考虑针对此类人工智能制定新的法律法规。
一位微软高管展示该公司必应搜索引擎和Edge浏览器与OpenAI的整合。图片来源:Stephen Brashear/Associated Press### 责任与利润分配
一些AI支持者认为,人工智能应该获取工程师能接触到的所有数据,因为人类就是这样学习的。按照这种逻辑,机器为何不能如此?
暂且不论当今AI实际运作方式与人类不同,本德博士指出,这种观点的一个症结在于AI无法对其行为负责。人类若抄袭他人作品或蓄意散播虚假信息,可能会承担后果。但她补充道,无论是机器还是其创造者,目前都无需承担类似责任。
这种情况可能不会持续。正如盖蒂等版权所有者起诉使用其知识产权作为训练数据的AI图像生成公司,如果基于聊天的AI制造商未经许可使用内容,企业和其他组织最终很可能也会将其告上法庭。
但那些个人随笔、冷门论坛帖子、已关闭社交网络的发言,以及数百万用户创作的其他零散内容——正是这些数据造就了如今擅长写作的聊天AI——其创作者们可能获得的唯一回报,就是使用这些基于自身作品训练的语言生成AI时产生的效用。
获取更多《华尔街日报》科技分析、评论、建议及头条新闻,请订阅我们的每周通讯。
联系克里斯托弗·米姆斯,邮箱:[email protected]
更正与说明当前的人工智能系统在任何情况下都不能对其行为负责,因为它是一种数学算法而非人类。本文早期版本错误地将"现行法律下"无法追责的说法归因于艾米丽·M·本德。(2023年4月30日更正)
刊载于2023年4月29日印刷版,标题为《最新AI技术需要关键贡献者:你》。