批评人士称AI技术使大规模知识产权盗窃成为可能——《华尔街日报》

Christopher Mims

2023-02-04

格热戈日·鲁特科夫斯基曾研习过纹理与光影大师——卡拉瓦乔、伦勃朗、维米尔的作品，他模仿这些大师技法的能力使其成为电子游戏行业中炙手可热的奇幻生物与场景画师。

但如今，他不再将所有时间都投入在波兰皮恩斯科镇风景如画的中世纪广场附近、阳光斑驳的工作室里作画，而是花费越来越多时间参加Zoom会议，与律师、艺术家等人讨论一个奇特现象——为何自己突然变得比想象中更为声名远播。

事实证明，鲁特科夫斯基独特的风格与题材选择使他成为最常被模仿的艺术家之一，模仿工具正是过去一年爆红的图像生成人工智能系统。其中最著名的两个系统分别是旧金山初创公司OpenAI开发的Dall-E 2，以及Stability AI打造的Stable Diffusion，不过竞争对手数量正在不断增加。

其结果是，以鲁特科夫斯基风格生成的AI图像突然遍布网络论坛，用户们在这些平台上分享通过文字提示生成的作品。鲁特科夫斯基的名字已成为这类AI艺术生成器中的热门关键词，以至于他决定加入一项针对多家相关公司的联邦集体诉讼。

为了让这些算法能够模仿鲁托夫斯基先生的风格，开发它们的公司首先需要从互联网上复制他的作品以及成千上万其他艺术家的作品，然后用这些数据来训练其人工智能。这就是所有所谓生成式AI的基本运作方式——首先，一家公司找到或创建一个足够大的数据集，然后使用各种算法训练软件，基于该数据生成特定的文本、图像或代码。

最让鲁托夫斯基先生担忧的是，利用他的作品生成的艺术可能会在至关重要的地方——比如谷歌的搜索索引和在线艺术库中——淹没他本人的原创作品。

鲁托夫斯基先生的故事之所以重要，是因为它在很多方面代表了生成式AI有可能改变各种创意作品的生产方式，包括小说、营销文案、新闻文章、视频、插画和代码。

多年来，我们一直在与擅长模式识别的各种AI打交道，这些AI实现了诸如在照片应用中识别家人面孔或在社交媒体信息流中标记不当内容等功能。

驱动生成式AI的算法更进一步。这两种AI都需要大量的训练数据，但生成式AI实际上可以综合这些数据来产生新的内容，而不仅仅是识别已经存在的内容。

这些系统的批评者包括艺术家、程序员、法律专家，甚至一些构建这些系统的工程师。他们认为，使这一切成为可能的系统——包括OpenAI的文本生成ChatGPT、微软的代码生成GitHub Copilot以及艺术生成AI——都在未经创作者许可的情况下吸收了内容。然后，它们利用这些内容创建了与那些被吸收作品的个人直接竞争的系统。如果没有这些免费内容（一些人认为是在合理使用保护下收集的），这些内容生成AI就不可能存在。

这些系统的支持者，包括其开发者、用户以及那些热衷于为任何可能带来颠覆性创新喝彩的技术乐观主义者们，认为生成式人工智能只是在以某种方式模仿人类行为——它从现有作品中学习，然后创造出自己的内容。他们还表示，无论人们对这些系统如何实现这一过程有何看法，这项技术或许已是不可避免的趋势，因为任何具备足够技术能力的人都能构建出这样的系统。

部分持此观点的人正尝试开发融入伦理考量的技术版本。音乐人、程序员兼学者马修·德莱赫斯特与妻子音乐人霍莉·赫恩登共同推出了名为Spawning的服务，该平台专门使用已授权作品的艺术家的图像来生成AI艺术。

“这不会消失，“德莱赫斯特先生说，“作为社会整体，我们必须接受所有媒体现在都成为训练数据的事实，任何风格——甚至是音乐中的音色——都将成为不受保护的元素。”

拥抱这些系统的作家、程序员和艺术家能提升生产力，就像工业革命以来自动化技术提高了其他领域无数劳动者的生产效率一样。包括小说家和程序员在内的许多人已经证实，AI能让他们更具创造力，同时更高效。

此外，这些系统能够实现内容创作的民主化。连圆圈都画不好的人，如今也能参与创作令人惊叹的艺术作品。非母语者可以就任何主题生成华丽文章。而持续面临效率压力的程序员，仅需输入简短文本提示就能生成可运行代码块。

“人们都说这是艺术的终结，“德里赫斯特先生表示，“我认为这与事实相去甚远。”

然而，由于针对参与内容创作或托管的相关公司正在进行的诉讼案件，这些系统背后的开发者不愿公开讨论。

这些案件包括鲁托夫斯基先生作为原告加入的诉讼，被告是AI艺术公司Midjourney、Stability AI以及知名艺术论坛DeviantArt——该平台既托管AI艺术又开发了自己的生成系统。这起上月提交至旧金山联邦地区法院的案件中，原告方主张这些公司侵犯了数万名艺术家的版权。

Stability AI发言人回应：“本案指控体现了对生成式AI技术原理及版权相关法律的根本误解。我们将捍卫自身权益，并维护生成式AI拓展人类创造力的巨大潜力。“DeviantArt与Midjourney未予置评。

另一项拟议的集体诉讼于11月在同一联邦法院提起，矛头直指微软、其子公司GitHub以及OpenAI的GitHub Copilot系统。原告方认为，该系统生成的代码未对用于训练Copilot的原始代码作者进行署名，违反了多种开源许可协议及《数字千年版权法》。被告方则要求法院驳回诉讼，其论点包括：在GitHub等平台分享代码的程序员原告未能证明Copilot对其造成了实质性损害。

本案牵涉利益重大。支持者认为，生成式AI可能成为未来数十年的革命性技术，重塑整个产业格局；也可能仅是略微提升生产力的工具，让微软产品稍显实用。微软已宣布向Dall-E、ChatGPT及GitHub Copilot底层技术OpenAI Codex的开发商投资数十亿美元。这些技术（尤其是可能推出的聊天驱动搜索引擎）是否会对谷歌构成实质性威胁尚不明确。但根据瑞银最新报告，ChatGPT用户增速已超越TikTok和Instagram，即将突破1亿大关。

律师约瑟夫·萨维里表示，正是这项技术的潜力使得微软等公司不顾风险争相投资并推出生成式AI系统。萨维里的律所正牵头处理针对GitHub Copilot起诉微软的案件，以及针对Stability AI的图像生成器Stability Diffusion多方诉讼案。

萨维里认为，当前微软的行为与上世纪90年代美国司法部成功起诉其反竞争行为（如将IE浏览器与Windows操作系统捆绑）存在相似性。他观察到，正如当年一样，微软正迅速行动以主导其认为对下一代互联网和计算至关重要的领域。

微软拒绝对Copilot服务的未决诉讼发表具体评论。但公司发言人表示，针对生成式AI系统的版权侵权指控可能适用于任何在业务流程中使用AI或机器学习的企业。他补充说，若判决支持原告，可能会"抑制并阻碍众多企业对这类技术的广泛使用”。

华盛顿大学法学学者张仁永指出，法院在判定合理使用时，会权衡内容新使用方式的潜在危害与收益。她表示针对生成式AI公司的全部诉讼可能需数年才能完结。

微软发言人表示，生成式AI的大多数应用方式可能都是全新的，涉及那些过去人们不会付费请人完成的领域。他补充道，就像以往可能被用于侵犯版权但具有其他用途的新技术（如录像机）的命运裁决案例，法院通常会基于该技术的众多潜在用途做出有利于新技术的判决。

随着诉讼案件的推进，微软和许多相关初创公司将继续开发更强大的模型。下一代ChatGPT已在研发中，微软承诺将该技术整合到Word、Excel、Teams等产品中。Stability AI在十月融资1.01亿美元，在大多数初创企业认为异常严峻的投资环境下估值达10亿美元。其他生成式AI初创公司也获得了投资者同等程度的热情追捧。

新的法律判例可能会限制这些系统，或强制其创建者修改所依赖的数据库内容，或推动他们向内容创作者提供补偿——没有这些内容，这些AI将无法存在。但无论发生什么，都将在这些技术对内容创作方式——以及谁能以此为生——产生重大影响之后。

“AI现在正踩着艺术家的脊背成长，“鲁托夫斯基先生说，“我感觉自己的脊梁被频繁利用。”

欲获取更多《华尔街日报》科技分析、评测、建议及头条新闻，请订阅我们的每周通讯。

致信克里斯托弗·米姆斯，邮箱：[email protected]

刊登于2023年2月4日印刷版，标题为《复制艺术创作艺术是抄袭，还是人工智能的杰作？》。