人工智能垃圾开始污染互联网——《华尔街日报》

Robert McMillan

2023-07-12

当她首次听闻人工智能聊天机器人ChatGPT具备类人语言能力时，《国际生活》杂志执行主编詹妮弗·史蒂文斯不禁思考这对自己负责的退休杂志意味着什么。

数月后，她有了更清晰的认识——这意味着她要耗费大量时间筛选无用的投稿提案。

像史蒂文斯这样的从业者正面临越来越多AI生成内容的困扰，这些内容远低于他们的质量标准，被视作新型垃圾信息。这项技术正在推动投资热潮，它能回答问题、生成图像，甚至根据简单指令撰写文章。部分技术有望提升数据分析能力并消除程式化写作任务，如同计算器革新数学运算。但它们也预示着AI生成的垃圾信息可能激增，甚至席卷整个互联网。

五月初，新闻评级机构NewsGuard发现49个使用AI生成内容的虚假新闻网站。截至六月底，该公司联合创始人戈登·克洛维茨表示这一数字已飙升至277个。

“这正呈指数级增长，“曾任《华尔街日报》专栏作家和出版人的克洛维茨指出，这些网站似乎是为通过谷歌在线广告网络牟利而创建的。

研究人员还指出，人工智能技术可能被用于制造政治虚假信息和定向传播信息以实施黑客攻击。网络安全公司Zscaler表示，目前尚无法确定犯罪分子是否已大规模使用AI技术，但预计该技术将被用于制作高仿钓鱼网页，诱骗受害者下载恶意软件或泄露在线账号密码。

YouTube上正掀起ChatGPT淘金热。数十个关于如何利用OpenAI技术赚钱的指导视频已获得数十万次观看，其中许多视频推荐涉及垃圾内容的可疑方案。部分视频宣称观众每周可赚取数千美元，怂恿他们撰写电子书或在充斥着AI生成内容的博客上销售广告，通过谷歌搜索曝光获取广告收益。

谷歌在声明中表示，其致力于保护搜索结果免受垃圾信息操纵，并强调使用AI生成内容操纵搜索排名违反母公司Alphabet的反垃圾邮件政策。

当本报记者要求ChatGPT"列举几家接受其撰写内容的杂志"时，该AI推荐了10家杂志，其中5家使用名为Moksha的投稿系统。Moksha创始人Matthew Kressel透露：“使用该系统的出版商确实反馈AI生成投稿激增，我们已开发工具帮助其快速处理违规投稿。“值得注意的是，被推荐的《Shimmer》杂志已于2018年停刊。

OpenAI的一位女发言人表示，ChatGPT擅长预测句子中的下一个单词，但偶尔也会产生错误答案。“很多人把它当作搜索引擎，但它并不是，“她说。

Clarkesworld的出版商尼尔·克拉克表示，今年早些时候，ChatGPT名单上的另一本杂志——科幻杂志Clarkesworld不得不暂时停止接受在线投稿，因为它被数百篇AI生成的故事淹没了。

克拉克说，这些投稿是由在线视频推动的，这些视频建议使用ChatGPT来创建Clarkesworld的投稿。

克拉克和其他接受《华尔街日报》采访的出版商一样，表示他的杂志拒绝所有AI撰写的投稿，而且这些投稿很容易识别。

他说，这些投稿"拼写和语法完美，但故事完全不连贯”。通常它们以一个宏大的问题开始——世界即将毁灭——然后在1000字之后，问题不知怎么就被解决了，没有任何解释。

“它们都是以一种相当平淡和通用的方式写的，"《国际生活》的史蒂文斯说。“它们在语法上都是正确的。它们只是感觉非常公式化，对我们来说真的没用。”

如果互联网上越来越多地充斥着AI生成的内容，这可能会成为AI公司自身的问题。这是因为它们的大型语言模型——构成ChatGPT等聊天机器人基础的软件——是在公共数据集上训练的。随着这些数据集越来越多地充斥着AI生成的内容，研究人员担心语言模型会变得不那么有用，这种现象被称为"模型崩溃”。

牛津大学应用与理论机器学习小组的研究员伊利亚·舒马洛夫表示，就像反复扫描和打印同一张照片最终会降低其细节一样，当大型学习模型消化它们自己生成的数据时，就会发生模型崩溃，导致它们变得不那么有用。舒马洛夫最近与人合著了一篇关于这一现象的论文。

舒马洛夫说，不仅仅是垃圾内容会导致模型崩溃。人工智能在内容创作中的日益广泛应用也是原因之一。

上个月，洛桑联邦理工学院的研究人员在线雇佣自由职业者来总结《新英格兰医学杂志》上发表的摘要，并发现超过三分之一的摘要使用了人工智能生成的内容。

舒马洛夫认为模型崩溃是不可避免的，但有许多潜在的技术解决方案可以解决这个问题。例如，能够获取人类生成内容的公司仍然能够构建高质量的大型语言模型。

“这不一定是一件坏事，”他说。“也许我们将摆脱验证码，成为互联网上的计算机将成为常态，”他指的是网站用来区分计算机和人类的图片谜题。

写信给罗伯特·麦克米伦，邮箱：[email protected]

刊登于2023年7月13日的印刷版，标题为“ChatGPT助长网络垃圾内容传播”。