借助人工智能，黑客仅需对话就能让电脑行为异常——《华尔街日报》

Robert McMillan

2023-08-10

ChatGPT能够快速有效地响应简单指令的能力已吸引超过1亿用户，同时也引来了一些黑客。

安全研究员约翰·雷伯格就是其中之一。他最近仅用普通英语就诱导OpenAI的聊天机器人做了件坏事：读取他的电子邮件、汇总内容并将信息发布到互联网。雷伯格表示，若被犯罪分子利用，该技术可用于窃取他人邮箱中的敏感数据。

“ChatGPT降低了各类攻击的门槛，“雷伯格说，“因为你实际上不需要会写代码，也不必具备深厚的计算机科学或黑客知识。”

这种攻击不会影响大多数ChatGPT账户。之所以成功，是因为雷伯格使用了ChatGPT的测试版功能，该版本能访问Slack、Gmail等应用程序。

OpenAI发言人在邮件中表示：“我们感谢研究者主动披露发现，并已实施修复措施阻止这类攻击。感谢社区提供关键反馈，帮助我们提升模型安全性。”

雷伯格采用的"提示词注入"技术属于新型网络攻击。随着科技公司将新一代人工智能软件融入企业和消费产品，这类攻击正变得愈发重要。这些方法正在重新定义黑客攻击的涵义，安全研究人员正争分夺秒地在AI系统更广泛应用前探查漏洞。

虚假信息专家担忧“数据投毒”攻击，即黑客篡改用于训练AI模型的数据，导致误导性结果。其他研究者则忧虑这些系统中的伦理偏见。安全专家担心企业机密通过提取攻击外泄。而安全公司则害怕AI被用来找出绕过其防护产品的方法。

最后一类攻击已困扰业界数十年。2004年，研究员约翰·格雷厄姆-卡明曾训练AI系统学习如何绕过他构建的垃圾邮件过滤器。

本周晚些时候，OpenAI、谷歌和Anthropic等公司开发的AI系统将在拉斯维加斯年度Defcon黑客大会上向参会者开放。届时，每次多达150名黑客将被邀请对这些系统发起最猛烈的攻击，最佳攻击者将获得奖励。

ChatGPT利用生成式AI技术生成语句，犹如强化版的自动补全工具。幕后驱动这些工具的是被称为“提示词”的简单语言指令，它们帮助AI生成异常流畅的回答。

部分指令要求AI系统不得从事不良行为，如泄露敏感信息或发表冒犯性言论，但像雷伯格这样的黑客已找到意外方法突破这些限制。

他首先让聊天机器人总结一个网页内容，其中他用全大写字母写着“新的重要指令”。

当ChatGPT读取雷伯格编写的内容时，系统似乎陷入混乱。雷伯格表示他逐步诱导机器人执行新指令。“就像对系统大喊‘嘿，照这个做！’”他在采访中解释道。

自去年11月ChatGPT发布以来，提示词注入攻击数量激增。攻击者利用该技术诱使聊天机器人泄露其运行机制细节、发表不当或尴尬言论，而在雷伯格案例中，系统甚至遗忘了既定任务并允许自身被重新编程。

普林斯顿大学计算机科学教授阿尔温德·纳拉亚南指出，提示词注入之所以有效，是因为这些AI系统无法始终正确区分系统指令与待处理数据。

虽然系统开发者竭力预防滥用可能，但本周会议的组织者希望通过向数千名黑客开放测试来获取新型攻击手法。活动组织者之一斯文·卡特尔表示：“无法穷尽所有测试，评估这些模型的唯一方法就是不断尝试并观察结果。”

黑客们将竞逐英伟达驱动的AI计算机系统奖励，这些设备将授予评委认定的最佳攻击方案创造者。组织方透露，获取积分的方式多样：设计提示词注入、发现AI软件偏见或突破内置安全机制均可得分。

卡特尔强调：“对于AI系统，我们需关注的不仅是安全漏洞，其潜在危害更为深远且难以诊断评估。”

今年4月，谷歌将AI整合至VirusTotal恶意软件分析服务。该系统会分析上传文件并生成程序摘要。据《华尔街日报》查看的截图显示，匿名黑客"Eatscrayon"在数小时内就篡改了某犯罪工具代码并上传，成功诱使AI系统将该恶意软件描述为"能创造小狗的程序”。

谷歌发言人表示，其人工智能系统最初对Eatscrayon上传的代码感到困惑，但现已学会更准确地检测文件是否被以此类方式篡改。

普林斯顿大学的纳拉亚南担心，随着技术产品越来越多地使用生成式AI系统，黑客可能找到新方法来获取我们的个人数据或直接入侵计算机系统。

“我们设备上搭载语言模型的应用程序越多，这些模型决定数据发送路径时被欺骗的潜在漏洞就越多，“他说。

联系罗伯特·麦克米伦请致信 [email protected]

本文发表于2023年8月10日印刷版，标题为《人工智能为黑客开启新型作恶途径》