出版商准备与微软、谷歌就人工智能工具展开对决——《华尔街日报》

Keach Hagey, Alexandra Bruell, Tom Dotan and Miles Kruppa

2023-03-23

自从能够进行对话、创作十四行诗并在LSAT考试中取得优异成绩的聊天机器人问世以来，许多人对人工智能技术的能力感到惊叹。

在线内容出版商同样对这种技术奇迹感到惊奇。他们也看到了对其业务的威胁，并正与这项技术的制造者走向一场对决。

据熟悉新闻媒体联盟（一个出版贸易团体）组织会议的人士透露，近几周来，出版业高管们已开始研究他们的内容被用于“训练”如ChatGPT等AI工具的程度，他们应如何获得补偿，以及他们的法律选择是什么。

“我们拥有有价值的内容，这些内容不断被用来为他人创造收入，而这是建立在我们所做的投资基础上的，这些投资需要真正的人力工作，因此必须得到补偿，”新闻媒体联盟的执行副总裁兼总法律顾问丹妮尔·科菲说。

由母公司OpenAI于去年11月发布的ChatGPT，作为一个独立工具运行，但也被整合到微软公司的必应搜索引擎和其他工具中。Alphabet公司的谷歌本周向公众开放了其自己的对话程序Bard，该程序也能生成类似人类的回答。

熟悉讨论的人士表示，Reddit已与微软就其内容在AI训练中的使用进行了会谈。Reddit的一位发言人拒绝置评。

《华尔街日报》母公司新闻集团首席执行官罗伯特·汤姆森在近期投资者会议上表示，他已"与某位不便透露的特定方展开磋商"。

谷歌本周向公众开放了对话式计算机程序Bard的访问权限。图片来源：Jaap Arriens/Zuma Press"显然，他们正在使用专有内容——这理应获得相应补偿，“汤姆森先生表示。

争议的核心在于AI公司是否有合法权利从互联网抓取内容并输入训练模型。一项名为"合理使用"的法律条款允许在特定情况下未经授权使用受版权保护的材料。

OpenAI首席执行官萨姆·奥尔特曼接受采访时表示，就ChatGPT而言，“我们在合理使用方面做了大量工作”。该工具基于两年前的数据进行训练。他还表示OpenAI已根据需求签订了内容授权协议。

“我们愿意为某些领域（如科学）的极高品质数据支付高昂费用，“奥尔特曼说。

出版商担忧的是AI工具可能分流其网站流量与广告收入。微软的技术版本会在回答用户问题时附上来源链接——例如显示其引用的鸡汤食谱文章或希腊旅行路线建议。

“在必应聊天中，我认为人们没有意识到，但每个内容都是可点击的，”微软CEO萨提亚·纳德拉在采访中表示，他指的是这类链接中蕴含的价值交换。出版业高管表示，实际会有多少用户点击这些链接并访问他们的网站，仍是一个悬而未决的问题。

多年来，微软一直通过MSN平台的内容授权协议形式直接向出版商支付费用。一些出版业高管表示，这些协议并不涵盖人工智能产品。微软拒绝置评。

围绕人工智能工具的紧张关系，为科技公司与出版界本已棘手的关系增添了新的复杂性。图片来源：John Minchillo/美联社在周二进行的早期测试中，谷歌的Bard经常在回答查询时不提供原始新闻来源的链接。

当被要求总结《纽约时报》上的重大新闻时，Bard给出了一份清单，其中包括拜登政府决定向乌克兰提供军事援助以及对俄罗斯实施新一轮制裁的消息。它在回答结束时表示：“欲了解更多关于这些及其他新闻的详情，请访问《纽约时报》网站”，但并未提供答案的链接或引用来源。

负责Google Assistant的副总裁Sissie Hsiao表示，公司“深切致力于维护一个健康且充满活力的内容生态系统”，并“将欢迎与利益相关者进行对话”。她说，当人工智能工具被整合到搜索中时，公司将优先考虑为内容创作者输送有价值的流量。

谷歌已达成协议，将向包括新闻集团在内的部分出版商支付费用，以在其名为"Google新闻展示"的产品中使用其内容，该产品尚未在美国推出。

围绕人工智能工具新出现的紧张局势，为科技巨头和出版界本已棘手的关系增添了新的复杂性。出版商依赖谷歌和Meta Platforms Inc.旗下Facebook等科技公司帮助其内容触达广泛受众，但也越来越多地推动这些公司为使用内容付费。

微软今年推出了升级版的必应搜索引擎。图片来源：Gabby Jones/彭博新闻据知情人士透露，允许美国出版商在不违反反垄断法规的情况下进行集体谈判的立法已在上一届国会会议期间流传，预计将很快重新提出。其中一位人士表示，该立法旨在涵盖包括人工智能工具在内的商业安排。

一些诉讼已经开始测试在网络抓取用于训练人工智能时在图像和代码方面的限制，但到目前为止还没有涉及文本的重大案例。科技公司普遍认为他们的行为属于合理使用范畴。今年2月，盖蒂图片社在特拉华州起诉人工智能艺术公司Stability AI，指控其侵犯了盖蒂的版权。Stability AI表示不对未决诉讼发表评论。

上周，美国版权局表示已启动一项计划，研究人工智能引发的各类问题，包括"在AI训练中使用受版权保护材料”。

奥特曼指出，在OpenAI达成的商业协议中，去年秋天与图库公司Shutterstock达成的合作尤为典型。这家以股票摄影起家的公司已将业务拓展至视频和3D模型等领域。根据协议，OpenAI获得了Shutterstock的数据授权，而Shutterstock则可以使用OpenAI的技术。同时Shutterstock设立了专项基金，用于补偿作品被用于AI训练的艺术家。

“我们认为确保内容贡献者获得报酬是合理且明智的，“Shutterstock首席执行官保罗·轩尼诗表示。

出版商们正积极探讨是否要争取类似协议。但讨论变得复杂的是，许多媒体公司同时正在积极采用这项技术。BuzzFeed和《体育画报》出版商等企业已宣布将借助AI工具来创作和个性化部分内容。

多年来，出版商们一直担忧谷歌搜索引擎开始直接提供诸如”《继承之战》演员表有哪些人？“等问题的具体答案——通过其所谓的"知识面板"呈现，而非提供媒体网站链接。

必应聊天功能更进一步，其提供的答案如此全面，以至于用户几乎没动力点击给出的来源链接。

“自2010年以来，出版商可控制份额一直在无情地下降，”SparkToro首席执行官兼搜索引擎优化行业资深人士兰德·菲什金说道。“这感觉就像是互联网的宿命。”

联系基奇·哈吉，邮箱：[email protected]，亚历山德拉·布鲁尔，邮箱：[email protected]，汤姆·多坦，邮箱：[email protected]，以及迈尔斯·克鲁帕，邮箱：[email protected]

刊登于2023年3月23日印刷版，标题为《出版商寻求为AI辅助内容付费》。