针对AI公司掌控网络内容的争议声浪日益高涨——《华尔街日报》

Deepa Seetharaman and Keach Hagey

2023-07-30

当作家、艺术家和网络出版商意识到席卷全球的生成式AI现象部分建立在他们的作品基础上时，集体抗议声浪正在爆发。

这种新觉醒的意识在人工智能工具的输入方与输出方之间引发了战争——关于内容创作者是否及如何获得补偿的争论。这些争端可能给方兴未艾的AI革命按下暂停键，而此刻AI即将引发全球经济变革。

包括OpenAI及其支持者微软、谷歌在内的人工智能公司，通过从互联网抓取海量信息并输入训练算法，构建了ChatGPT等生成式AI系统，这些算法教会AI模仿人类语言。这些公司普遍声称其未经补偿的数据使用是合法的，但也为与内容创作者协商留下了空间。

7月初，玛格丽特·阿特伍德、詹姆斯·帕特森等数千名作家签署公开信，要求顶级AI公司必须获得授权并向作家支付作品用于训练AI模型的费用。喜剧演员莎拉·西尔弗曼等作家还起诉了OpenAI及Facebook母公司Meta Platforms，指控其使用网络上流传的非法复制书籍训练AI模型。

新闻出版商称未经授权使用其内容构成版权侵权。据知情人士透露，包括《华尔街日报》母公司新闻集团、Dotdash Meredith所有者IAC以及《纽约客》《滚石》《政客》等出版商已与科技公司展开讨论，探索AI训练使用其内容的付费方案。

美联社与OpenAI本月宣布达成协议，该科技公司将获得美联社档案中新闻报道的授权许可。

社交讨论与新闻聚合网站Reddit已开始对部分内容访问收费。埃隆·马斯克将X平台（原推特）近期限制部分用户浏览推文数量的决定归咎于AI公司抓取"海量数据"。而正在罢工的演员和编剧们则提出担忧，认为好莱坞制片公司可能利用AI复制他们的形象或取代其工作岗位。

日益紧张的局势反映出人们对写作及其他网络内容价值的广泛反思——这些被重金投入AI技术的大型科技公司视为未来利润引擎的内容，是否应当被随意抓取。

美国最畅销作家帕特森表示，想到自己200多部小说可能未经许可就被用于训练AI软件来替代他的创作，这令他感到"恐惧"。

“这对创作者来说不会有好结果，“他在采访中表示。

书籍构成AI模型训练数据的重要部分，但相关公司未完全披露其AI系统吸收的书目清单及是否包含仍在版权期的作品。部分作家怀疑自己的作品被使用，因为模型能准确复述书中章节内容。

OpenAI和谷歌均表示，他们使用"公开可用"信息训练AI模型。专家指出，这一表述涵盖的内容范围广泛，包括付费墙网站和盗版网站的内容。OpenAI在声明中还表示尊重创作者和作者权利，并强调许多创意工作者正在使用ChatGPT。

这些法律纠纷可能对数据获取施加新限制或增加巨额成本，从而彻底改变这些新型AI工具的商业模式。

诉讼可能迫使企业在未来数据收集中加入授权环节，或要求其为用于训练模型的版权材料支付追溯性费用。法院可能要求删除基于此类数据构建的模型，这将使AI研发倒退数年。

数据限制将影响AI公司开发下一代语言模型的难易程度。但律师指出，这些模型的庞大规模本身也对主张版权保护者构成挑战。

“这些案件具有开创性，处理的是前所未见的规模问题，“耶鲁法学院信息社会项目研究员梅塔布·汗表示，该项目专注信息法律与政策研究，“核心在于可行性——如何联系到每位作者？”

去年11月ChatGPT的发布引爆了生成式AI工具的热潮，其既能处理实际任务，又能模仿伍迪·艾伦风格创作剧本或以史努比狗狗口吻解释弦理论的特性，引发了企业间的技术军备竞赛。

诸如ChatGPT等聊天机器人的强大能力源自于被称为大语言模型的人工智能系统。企业可能花费数千万美元甚至更多资金训练某些最大规模的模型，这些训练数据是通过自动化程序从互联网各处网站抓取信息而收集的。

科技公司援引了合理使用的法律原则，该原则允许在某些情况下未经许可使用受版权保护的材料，包括当最终产品与原始作品存在显著差异时。人工智能支持者认为，自由获取信息对于像人类一样学习的技术至关重要，这种技术对我们的工作和生活方式具有巨大的潜在益处。

“如果人类可以自由访问并学习网络信息，我认为也应该允许AI系统这样做，这将对全社会有益，“投资AI公司并运营斯坦福大学AI实验室的吴恩达表示。

人们日益担忧AI系统可能被用来取代编剧、记者或小说家——这些创作者从作品中获得的报酬，往往比科技公司通过训练这些作品可能获得的利润要少得多。

AI领域领袖普遍表示，虽然这项技术可能冲击某些职业，但同时也将创造新的就业机会。

发布公开信的美国作家协会已与科技公司CEO接触，商讨对已完成训练的补偿方案，以及允许语言模型模仿作家作品时需支付的授权协议。协会CEO玛丽·拉森伯格表示会谈富有成效，但需要所有AI公司共同参与。

拉森伯格表示，这一问题将持续存在，因为企业需要获取更多信息来推进其人工智能工具开发。她指出：“这些模型若想在未来保持运作，就必须持续获取新鲜素材。”

谷歌发言人回应称，公司"正着力深化对产品商业模式的认知，并探索让网络出版商能自主选择和控制其内容的方案”。她表示在开发AI工具过程中，谷歌将优先为新闻出版商输送"有价值的流量”。

近期涌现的投诉与诉讼，延续了早期针对生成图像和计算机代码的生成式AI的法律挑战。

例如去年11月，代表GitHub用户的律师对OpenAI、微软及其子公司GitHub提起集体诉讼。诉状指控程序员使用的生成式AI工具GitHub Copilot未经授权复制许可代码片段，违反了开源软件许可协议。

GitHub回应称坚持负责任创新，相信AI将"重塑全球软件开发方式，提升生产力，更重要的是让开发者更快乐”。

另有互联网用户分别对OpenAI、微软和谷歌发起集体诉讼，指控这些公司为训练AI模型而抓取网站内容的行为侵犯了用户隐私权与著作权。

出于竞争考量，OpenAI未详细披露训练其最新语言模型GPT-4所使用的数据。此前研究论文显示，早期GPT版本部分训练数据来自英文维基百科页面及非营利组织Common Crawl采集的数据，还使用了OpenAI自行整理的Reddit帖子数据集——这些帖子的用户评分"karma"均不低于3分。

4月，作为OpenAI等公司构建大型语言模型关键数据来源的Reddit宣布，将开始对直接大规模数据访问收费。

“人工智能系统完全依赖于人类创作的高质量数据集，如果他们摧毁了这个市场，他们的系统也会崩溃，“代表莎拉·西尔弗曼及其他多方起诉科技公司使用其内容训练生成式AI的律师马修·巴特里克表示，“他们不可能在搞垮艺术家的同时不搞垮自己。”

联系迪帕·西塔拉曼请致信[email protected]，联系基奇·黑吉请致信[email protected]

本文发表于2023年7月31日印刷版，标题为《AI训练数据引发日益高涨的抗议声浪》