我用AI克隆了自己她骗过了我的银行和家人——《华尔街日报》

Joanna Stern

2023-04-28

关于AI乔安娜的好消息：她永远不会失声，姿态优雅，即使敞篷车以120英里时速穿越龙卷风也弄不乱她的发型。

坏消息是：她能骗过我的家人，还能戏弄我的银行。

或许你曾玩过OpenAI的ChatGPT、谷歌的Bard这类聊天机器人，或是Dall-E之类的图像生成器。如果你认为它们模糊了人工智能与人类智能的界限，那接下来所见所闻——才真正颠覆认知。

过去几个月，我一直在测试Synthesia——这款工具能通过录制视频和音频（即深度伪造）生成人工智能虚拟形象。输入任意文字，你的视频化身就会复述出来。

由于我常从事语音视频工作，本以为这能提升效率，摆脱枯燥。毕竟，这正体现了人工智能的承诺。于是我去录音棚录制了约30分钟视频和近两小时音频供Synthesia训练我的数字分身。几周后，AI乔安娜诞生了。

接着我尝试了终极偷懒方案——《春天不是读书天》式休假。搭配ChatGPT生成文本的AI版"我"，能否在视频、会议和电话中取代真实的我？结果可谓大开眼界，或者说——AI开眼界。（烂笑话都怪AI乔安娜。）

最终，AI乔安娜可能会撰写专栏并主持我的视频节目。目前，她最能体现生成式AI语音视频工具的双刃剑特性。

我的视频化身看起来就是个虚拟形象

视频制作极其耗时——发型、妆容、服装、摄像机、灯光、麦克风。Synthesia公司承诺能消除这些工作，这正是企业已开始使用它的原因。那些无聊的合规培训视频你见过吧？既然AI能搞定一切，何必花钱请真人演员出演？Synthesia收费每年1000美元创建和维护定制化身，另需按月支付订阅费。它也提供月费更低的预制化身。

我让ChatGPT以乔安娜·斯特恩的口吻生成了一段关于iOS技巧的TikTok脚本。将其粘贴到Synthesia点击"生成"后，突然"我"就开始说话了。这就像看着镜中的自己，只不过这个镜像不会做手势和表情。短句子时化身相当逼真，但文本越长，她的机器本质就越明显。具体效果请观看我的视频。

在用户注意力如金鱼般短暂的TikTok上，这些机械特质不太容易被察觉。不过还是有人立刻发现了端倪。郑重声明，我宁可生吞鳗鱼也不会说"TikTok家人们"这种话，但AI版的我说起来毫无障碍。

在工作视频会议中，机器特性变得极其明显。我下载了她常说会议用语(“大家好！““抱歉刚才静音了”)的片段，用软件接入Google Meet。显然，AI乔安娜僵硬的坐姿和缺乏机智的表现彻底暴露了身份。

不过，这一切都会变得更好。Synthesia有一些测试版虚拟形象已经能实现点头、挑眉等动作。

我的AI声音简直以假乱真

当我姐姐的鱼死去时，我本可以亲自打电话慰问；与Snap CEO埃文·斯皮格尔电话采访时，我也完全可以自己提问。但在这两种情况下，起初我的AI声音都成功扮演了替身。

这些通话中我并未使用Synthesia的声音克隆，而是采用了AI语音软件开发商ElevenLabs生成的声音。制作人肯尼·瓦瑟斯从我过往视频中提取了约90分钟的声音素材上传至该工具——无需专业录音室。不到两分钟，它就克隆了我的声音。在ElevenLabs的网页工具中输入任意文字，点击生成，几秒内"我"的声音就会朗读出来。ElevenLabs的语音克隆服务起价为每月5美元。

相比Synthesia的乔安娜版本，ElevenLabs克隆的"我"更接近真人，语调和流畅度更优。试听对比音频：

每周与我通话数次的姐姐表示，这个AI完全就是我的声音，只是注意到它不会像真人那样停顿呼吸。当我打给父亲索要社保号码时，他仅因声音像录音才察觉异常。

滥用风险确实存在

ElevenLabs的克隆声音甚至骗过了我的大通信用卡声纹验证系统。

我预先为AI乔安娜准备了几个我知道蔡斯会问的问题，然后拨打了客服电话。在生物识别步骤中，当自动化系统要求提供我的姓名和地址时，AI乔安娜做出了回应。听到我的机器人声音后，系统将其识别为我本人，并立即转接给客服代表。而当我们的视频实习生尝试模仿乔安娜的声音拨打电话时，自动化系统则要求进一步验证。

摩根大通发言人表示，该银行使用语音生物识别技术及其他工具来验证来电者身份。她补充说，这一功能旨在让客户快速安全地确认身份，但要完成交易和其他财务请求，客户仍需提供额外信息。

最令人担忧的是：ElevenLabs几乎毫无障碍地制作出了高度逼真的克隆声音。我只需点击一个按钮，声明我拥有上传音频文件和创建克隆的"必要权利或授权”，且不会将其用于欺诈目的。

这意味着任何网民都可以保存并使用我——或者你，甚至乔·拜登、汤姆·布雷迪——数小时的录音。美国联邦贸易委员会已就AI语音相关骗局发出警告。

Synthesia公司要求音频视频必须包含口头授权声明，我在该公司拍摄录制时已履行该要求。

ElevenLabs联合创始人马蒂·斯坦尼舍夫斯基告诉我，该公司仅允许付费账户使用克隆功能，因此任何违反公司政策的克隆声音使用行为都可追溯到账户持有人。该公司正在开发认证工具，让人们可以上传任意音频以检测是否使用了ElevenLabs技术生成。

这两个系统都允许我用我的声音生成一些可怕的内容，包括死亡威胁。

在Synthesia的网络工具中，你可以输入你希望你的虚拟形象说的话。照片：Joanna Stern/华尔街日报，SynthesiaSynthesia的一位发言人表示，我的账户被指定为新闻机构使用，这意味着它可以表达一些可能会被过滤掉的词语和短语。该公司表示，其审核人员后来标记并删除了我有问题的短语。当我的账户被更改为标准类型后，我再也无法生成那些相同的短语。

Staniszewski先生表示，ElevenLabs可以识别所有使用其软件制作的内容。他补充说，如果内容违反了公司的服务条款，ElevenLabs可以封禁其来源账户，并在违法的情况下协助当局。

这些东西很难被发现。

当我询问加州大学伯克利分校的数字取证专家Hany Farid如何识别合成音频和视频时，他只说了两个字：祝你好运。

“我不仅可以生成这些东西，还可以在互联网上地毯式轰炸它们，”他说，并补充道，你不能让每个人都成为AI侦探。

当然，我的视频克隆明显不是我，但它只会变得越来越好。如果连我自己的父母和姐姐都听出我声音的差异，我还能指望其他人吗？

听到由Adobe主导的内容真实性倡议，我获得了一丝希望。超过1000家媒体和科技公司、学术界等机构致力于为媒体创建嵌入式“营养标签”。未来网络上的照片、视频和音频或许都将附带可验证信息。Synthesia是该倡议的成员之一。

职场幻想：能替你参加视频会议的AI。可惜所有人都看出她是冒牌货。图片来源：Joanna Stern/华尔街日报### 身为人类让我倍感欣慰

与从不微笑的AI乔安娜不同，真正的乔安娜在此之后有了值得微笑的理由。ChatGPT生成的文字缺乏我的个人风格和专业见解，视频克隆体也缺失了构成真实自我的特质。虽然我的视频制作人喜欢在初剪时用AI语音调试节奏，但我的真实声音更具活力、情感和韵律。

AI会在这方面做得更好吗？毫无疑问。但我也计划利用这些工具为自己争取更多时间做真实的人类。至少现在开会时，我的坐姿比以往端正多了。

—订阅《乔安娜·斯特恩的科技万物》周刊，在这个万物皆科技的时代，专栏作家乔安娜·斯特恩将作为向导，解析并解答关于这个永远在线世界的种种疑问。

写信给乔安娜·斯特恩，邮箱：[email protected]

更正与补充说明本文早期版本中随附图片的说明文字将Synthesia网络工具的名称误拼为Sythesia。（已于4月28日更正）

刊登于2023年4月29日印刷版，标题为《AI克隆体骗过了我的银行和家人》。