我用AI克隆了自己她骗过了我的银行和家人——《华尔街日报》
Joanna Stern
关于AI乔安娜的好消息:她永远不会失声,姿态优雅,即使敞篷车以120英里时速穿越龙卷风也弄不乱她的发型。
坏消息是:她能骗过我的家人,还能戏弄我的银行。
或许你曾玩过OpenAI的ChatGPT、谷歌的Bard这类聊天机器人,或是Dall-E之类的图像生成器。如果你认为它们模糊了人工智能与人类智能的界限,那接下来所见所闻——才真正颠覆认知。
过去几个月,我一直在测试Synthesia——这款工具能通过录制视频和音频(即深度伪造)生成人工智能虚拟形象。输入任意文字,你的视频化身就会复述出来。
由于我常从事语音视频工作,本以为这能提升效率,摆脱枯燥。毕竟,这正体现了人工智能的承诺。于是我去录音棚录制了约30分钟视频和近两小时音频供Synthesia训练我的数字分身。几周后,AI乔安娜诞生了。
接着我尝试了终极偷懒方案——《春天不是读书天》式休假。搭配ChatGPT生成文本的AI版"我",能否在视频、会议和电话中取代真实的我?结果可谓大开眼界,或者说——AI开眼界。(烂笑话都怪AI乔安娜。)
最终,AI乔安娜可能会撰写专栏并主持我的视频节目。目前,她最能体现生成式AI语音视频工具的双刃剑特性。
我的视频化身看起来就是个虚拟形象
视频制作极其耗时——发型、妆容、服装、摄像机、灯光、麦克风。Synthesia公司承诺能消除这些工作,这正是企业已开始使用它的原因。那些无聊的合规培训视频你见过吧?既然AI能搞定一切,何必花钱请真人演员出演?Synthesia收费每年1000美元创建和维护定制化身,另需按月支付订阅费。它也提供月费更低的预制化身。
我让ChatGPT以乔安娜·斯特恩的口吻生成了一段关于iOS技巧的TikTok脚本。将其粘贴到Synthesia点击"生成"后,突然"我"就开始说话了。这就像看着镜中的自己,只不过这个镜像不会做手势和表情。短句子时化身相当逼真,但文本越长,她的机器本质就越明显。具体效果请观看我的视频。
在用户注意力如金鱼般短暂的TikTok上,这些机械特质不太容易被察觉。不过还是有人立刻发现了端倪。郑重声明,我宁可生吞鳗鱼也不会说"TikTok家人们"这种话,但AI版的我说起来毫无障碍。
在工作视频会议中,机器特性变得极其明显。我下载了她常说会议用语(“大家好!““抱歉刚才静音了”)的片段,用软件接入Google Meet。显然,AI乔安娜僵硬的坐姿和缺乏机智的表现彻底暴露了身份。
不过,这一切都会变得更好。Synthesia有一些测试版虚拟形象已经能实现点头、挑眉等动作。
我的AI声音简直以假乱真
当我姐姐的鱼死去时,我本可以亲自打电话慰问;与Snap CEO埃文·斯皮格尔电话采访时,我也完全可以自己提问。但在这两种情况下,起初我的AI声音都成功扮演了替身。
这些通话中我并未使用Synthesia的声音克隆,而是采用了AI语音软件开发商ElevenLabs生成的声音。制作人肯尼·瓦瑟斯从我过往视频中提取了约90分钟的声音素材上传至该工具——无需专业录音室。不到两分钟,它就克隆了我的声音。在ElevenLabs的网页工具中输入任意文字,点击生成,几秒内"我"的声音就会朗读出来。ElevenLabs的语音克隆服务起价为每月5美元。
相比Synthesia的乔安娜版本,ElevenLabs克隆的"我"更接近真人,语调和流畅度更优。试听对比音频:
每周与我通话数次的姐姐表示,这个AI完全就是我的声音,只是注意到它不会像真人那样停顿呼吸。当我打给父亲索要社保号码时,他仅因声音像录音才察觉异常。
滥用风险确实存在
ElevenLabs的克隆声音甚至骗过了我的大通信用卡声纹验证系统。
我预先为AI乔安娜准备了几个我知道蔡斯会问的问题,然后拨打了客服电话。在生物识别步骤中,当自动化系统要求提供我的姓名和地址时,AI乔安娜做出了回应。听到我的机器人声音后,系统将其识别为我本人,并立即转接给客服代表。而当我们的视频实习生尝试模仿乔安娜的声音拨打电话时,自动化系统则要求进一步验证。
摩根大通发言人表示,该银行使用语音生物识别技术及其他工具来验证来电者身份。她补充说,这一功能旨在让客户快速安全地确认身份,但要完成交易和其他财务请求,客户仍需提供额外信息。
最令人担忧的是:ElevenLabs几乎毫无障碍地制作出了高度逼真的克隆声音。我只需点击一个按钮,声明我拥有上传音频文件和创建克隆的"必要权利或授权”,且不会将其用于欺诈目的。
这意味着任何网民都可以保存并使用我——或者你,甚至乔·拜登、汤姆·布雷迪——数小时的录音。美国联邦贸易委员会已就AI语音相关骗局发出警告。
Synthesia公司要求音频视频必须包含口头授权声明,我在该公司拍摄录制时已履行该要求。
ElevenLabs联合创始人马蒂·斯坦尼舍夫斯基告诉我,该公司仅允许付费账户使用克隆功能,因此任何违反公司政策的克隆声音使用行为都可追溯到账户持有人。该公司正在开发认证工具,让人们可以上传任意音频以检测是否使用了ElevenLabs技术生成。
这两个系统都允许我用我的声音生成一些可怕的内容,包括死亡威胁。
在Synthesia的网络工具中,你可以输入你希望你的虚拟形象说的话。照片:Joanna Stern/华尔街日报,SynthesiaSynthesia的一位发言人表示,我的账户被指定为新闻机构使用,这意味着它可以表达一些可能会被过滤掉的词语和短语。该公司表示,其审核人员后来标记并删除了我有问题的短语。当我的账户被更改为标准类型后,我再也无法生成那些相同的短语。
Staniszewski先生表示,ElevenLabs可以识别所有使用其软件制作的内容。他补充说,如果内容违反了公司的服务条款,ElevenLabs可以封禁其来源账户,并在违法的情况下协助当局。
这些东西很难被发现。
当我询问加州大学伯克利分校的数字取证专家Hany Farid如何识别合成音频和视频时,他只说了两个字:祝你好运。
“我不仅可以生成这些东西,还可以在互联网上地毯式轰炸它们,”他说,并补充道,你不能让每个人都成为AI侦探。
当然,我的视频克隆明显不是我,但它只会变得越来越好。如果连我自己的父母和姐姐都听出我声音的差异,我还能指望其他人吗?
听到由Adobe主导的内容真实性倡议,我获得了一丝希望。超过1000家媒体和科技公司、学术界等机构致力于为媒体创建嵌入式“营养标签”。未来网络上的照片、视频和音频或许都将附带可验证信息。Synthesia是该倡议的成员之一。
职场幻想:能替你参加视频会议的AI。可惜所有人都看出她是冒牌货。图片来源:Joanna Stern/华尔街日报### 身为人类让我倍感欣慰
与从不微笑的AI乔安娜不同,真正的乔安娜在此之后有了值得微笑的理由。ChatGPT生成的文字缺乏我的个人风格和专业见解,视频克隆体也缺失了构成真实自我的特质。虽然我的视频制作人喜欢在初剪时用AI语音调试节奏,但我的真实声音更具活力、情感和韵律。
AI会在这方面做得更好吗?毫无疑问。但我也计划利用这些工具为自己争取更多时间做真实的人类。至少现在开会时,我的坐姿比以往端正多了。
—订阅《乔安娜·斯特恩的科技万物》周刊,在这个万物皆科技的时代,专栏作家乔安娜·斯特恩将作为向导,解析并解答关于这个永远在线世界的种种疑问。
写信给乔安娜·斯特恩,邮箱:[email protected]
更正与补充说明本文早期版本中随附图片的说明文字将Synthesia网络工具的名称误拼为Sythesia。(已于4月28日更正)
刊登于2023年4月29日印刷版,标题为《AI克隆体骗过了我的银行和家人》。