AI聊天机器人像ChatGPT吸收了大量数据版权持有者想要分一杯羹 - 彭博社

Ethan M Steinberg

2024-04-06

ChatGPT和其他聊天机器人如何生成文本、图片和音乐，以与有才华的人类相媲美？通过吸收人们已经创作的内容，并识别材料中的模式，从而能够产生新的东西。这些生成式人工智能平台已经吸收了19世纪的小说、节拍诗、草案合同、电影剧本、图片散文、数百万首歌曲等各种内容，成为自互联网发明以来最具颠覆性的技术力量。

事实证明，这种对人类过去努力的广泛搜索并非免费。新闻机构、小说家、音乐出版商等那些作品被输入聊天机器人的大型语言模型作为训练的人们正在要求分享利润。

一些人已经与ChatGPT的所有者OpenAI达成协议，使用他们的作品。其他人正在起诉该公司和其他人工智能平台开发者在美国法院。结果将是对“合理使用”原则的一次考验，该原则使得在某些情况下可以使用书籍、新闻报道、歌词和其他受版权保护的材料而无需支付其创作者。

案例

至少有20起诉讼案件正在进行中，大多数在加利福尼亚州或纽约联邦法院，针对人工智能公司。一些是由新闻机构提起的。其他涉及作者试图从其故事的使用中获得一些收入。

法律专家们最关注的案件之一是《纽约时报》在去年十二月底针对OpenAI及其投资者微软公司提起的诉讼。该报要求高达4500亿美元的赔偿，声称OpenAI侵犯了其权利，使用时报文章开发ChatGPT。这起诉讼与其他案件不同之处在于，它还指控这款聊天机器人制造商在被提示时几乎逐字复制时报文章。时报表示，双方在提起诉讼前进行了数月的谈判。OpenAI在一份驳回诉状的动议中表示，投诉中引用的复述示例“非常反常规”，是聊天机器人中的一个错误。
另一起诉讼指控Facebook和Instagram所有者Meta Platforms Inc.非法复制了作家Sarah Silverman和Richard Kadrey的书籍用于其人工智能工具。
库存照片供应商Getty Images声称其照片不应在未经许可的情况下被用来训练由Stability AI拥有的图像生成器Stable Diffusion。
在线新闻媒体The Intercept和Raw Story Media提起的一对诉讼指控OpenAI和微软违反了1998年数字千禧版权法，因为他们在训练ChatGPT的LLM时剥夺了受版权保护的信息。
倡导版权保护的作者公会也起诉了OpenAI，个别作者如Julian Sancton和Nicholas Basbanes也提起了诉讼。得到亚马逊支持的人工智能初创公司Anthropic也因其使用歌词来训练其聊天机器人Claude而成为一起诉讼的被告。

什么是“合理使用”？

合理使用被视为内置在美国版权法中的“安全阀”。

它旨在允许未经许可使用受版权保护的作品，只要这种使用在某种程度上有益于公众。它还确保版权法遵守言论自由保护。例如，模仿通常受到合理使用的保护。

这项法律以其灵活性而著称，确定在特定情况下是否适用合理使用的唯一方法是询问一位联邦法官。法官们依据四个标准，包括使用是否在某种程度上增加了原作品，以及是否给版权持有人造成了经济损失。

他们还考虑作品的性质，包括它是虚构的还是基于现实事实的。

大多数其他国家没有合理使用原则。一些国家，如英国，拥有更为有限的原则，而另一些国家，如日本，已通过法律豁免了人工智能训练的版权责任。这可能威胁到长期以来被视为美国公司竞争优势的东西。

最近，它被用来监管技术，比如在2005年作者协会对谷歌提起的一起案件。协会指控这家搜索巨头的图书平台通过在搜索结果中显示已出版书籍的片段侵犯了版权。经过十年的诉讼，2015年，一位联邦上诉法院法官做出了对这家科技巨头的重大胜利，裁定谷歌仅以小节选自书籍，并且以一种变革性的方式使用。

‘公平使用’对AI平台来说是否是一种有效的辩护？

哈佛法学院的第一修正案学者兼教授丽贝卡·塔什内特表示，谷歌图书案为对抗OpenAI提供了一些挑战的最佳先例。该案认为创建数据库是公平使用，因为整体大于部分之和，摘录的使用增加了原作品的公共知识，而不是完全替代它们。

“创建训练集的做法完全符合过去的公平使用标准，”塔什内特说道。不同之处在于，AI模型是否可以输出大量与受版权保护的作品相似的文本，而不需要AI所有者为该作品付费。这一点尚未在法庭上得到验证。

塔什内特和其他法律专家警告称，将支持公平使用原则的个别裁决解读为指导其他案件是有风险的，很大程度上取决于所讨论平台如何摄取和使用受版权保护的内容。

一些主要新闻媒体已与AI公司达成许可协议，但更多个人作者选择起诉，这表明为较小作品获得有利可图的交易存在挑战。

潜在解决方案

在法庭上辩护的同时，AI公司继续与出版商谈判商业条款。这表明最终的裁决更有可能影响最终如何在对立方之间分配资金，而不是挑战使用受版权保护作品训练聊天机器人的实际原则。

回滚像ChatGPT这样的工具可能会扰乱由美国公司主导的行业，这可能会带来数千亿美元的收入，而美国法官可能不愿这样做，据未参与案件的法律专家称。如果判处赔偿，他们表示不太可能达到数千亿美元。

美联社已经在2023年7月与OpenAI达成协议，许可其内容用于训练ChatGPT，作为交换，但金额未披露。德国的Axel Springer 达成了一项价值数千万欧元的类似新闻内容协议。该公司表示，聊天机器人对用户提示的回应将包括归属和完整文章的链接。

CNN、Fox和时代杂志也已与OpenAI进行了谈判，以许可其内容。

提起诉讼的个人作者寻求经济赔偿。例如，Basbanes要求每项他声称被侵权的作品赔偿15万美元。他还要求分享他声称OpenAI从使用他的作品中赚取的利润。

对版权持有人有利的裁决可能会对无法负担昂贵许可协议的较小AI初创公司造成伤害，从而给较大的参与者带来潜在优势。另一方面，像纽约时报这样的申请人表示，如果读者可以提示在线工具复制他们作品的部分内容，他们可能会失去一部分付费读者。

“没有正确答案，” 杰尼弗·詹金斯（Jennifer Jenkins）说，她是杜克大学的版权法专家和教授。“但如果历史是一个指南，天空还没有倒塌，我认为生成式人工智能系统不会消失。”