埃隆·马斯克、谷歌母公司投资碳减排技术-彭博报道
Akshat Rathi, Stefan Nicola
插图:夏洛特·波莱特为彭博商业周刊绘制
Jordan Howlett
摄影师:约翰·弗朗西斯·彼得斯为彭博商业周刊拍摄Jordan Howlett,一位在Instagram、TikTok和YouTube上拥有2400万粉丝的26岁青年,非常谨慎地选择与之合作的品牌。他已经与Domino’s Pizza、Google和WingStop签署了协议,靠着创作关于如何“像专业人士一样打开罐子”或者“正确吃Chipotle碗”的视频来谋生。因此,当他开始收到询问他为什么在Facebook和Instagram上宣传一种所谓的治疗失明的产品时,他感到恐慌。
Howlett点击了其中一个问题视频的链接,恐惧地听着一个声音,听起来就像是他自己的声音,描述了“剑桥的顶尖研究人员”发现了一种可以让任何人拥有完美视力的七秒仪式。视频中包含了脑部X光和中年人眯着眼睛看手机的库存图片,剪辑非常粗糙。但根据Howlett的说法,音频非常具有说服力。“当我听到自己的声音时,我感到恐惧,”他说。“他们理论上可以让我说任何话。”
网络安全专家多年来一直在警告深度伪造——人工生成或篡改的媒体,可以通过作为真实的。虽然很多关注点集中在图像和视频上,但在过去一年中已经明显,音频深度伪造,有时被称为声音克隆,构成了最直接的威胁。欺诈检测机构Pindrop的创始人Vijay Balasubramaniyan表示,他的公司已经开始看到对银行客户的攻击,诈骗分子使用合成音频冒充客户支持电话中的账户持有人。
豪利特说他被他的声音的假音频“吓坏了”。摄影师:约翰·弗朗西斯·彼得斯为彭博商业周刊另一个主要的恐惧是政治操纵,比如当 20,000名新罕布什尔州选民收到一通电话声称是来自总统乔·拜登,敦促他们不要在第二天投票给他。这并没有明显的实际影响:拜登甚至不在选票上,但仍然通过一场填空选举大获全胜。尽管如此,这一事件加强了人们对这种技术可能在今年的选举中发挥重要作用的担忧。2月8日,联邦通信委员会禁止使用人工智能的自动电话竞选活动。
Pindrop表示,豪利特的视频是通过将他讲话的录音(显然是从他的YouTube或Instagram视频中获取的)输入由一家名为ElevenLabs的初创公司开发的软件中来创建的,以克隆他的声音。从那时起,正如豪利特所担心的那样,ElevenLabs的技术赋予了其用户创作出令人毛骨悚然的逼真的以他的声音为基础的音频叙述的能力。另外两名独立研究人员分析了拜登的电话自动拨号,并确定该音频也是使用ElevenLabs技术生成的。
童年时的朋友Mati Staniszewski,一位前部署战略师,现在是Palantir Technologies Inc.的员工,和Piotr Dąbkowski,一位前Google机器学习工程师,两年前创立了ElevenLabs。这两个人在波兰长大,看着被拙劣配音成波兰语的好莱坞电影,他们认为人工智能可以让今天的孩子们免受类似经历。他们认为,同样的工具可以用来讲述在线课程或有声书,甚至翻译实时对话。
这个想法让ElevenLabs成为生成式人工智能行业中最受关注的初创公司之一。它并不是唯一的语音克隆服务提供商,但它已经跻身于行业前列。ElevenLabs已经从包括Andreessen Horowitz、Smash Capital和DeepMind联合创始人Mustafa Suleyman在内的投资者那里筹集了资金。该公司最近一轮融资于一月宣布,估值达到11亿美元。熟悉ElevenLabs内部运作的人士表示,管理层并不希望看到他们的产品被用来制作欺诈性的互联网广告或选民压制材料。但正如成功的互联网初创公司经常发生的情况一样,该公司的工具传播速度比开发防范滥用的保障措施更快。
ElevenLabs提供一个免费的通用语音库,但对于可识别的声音克隆的需求迅速增长。在2023年一月推出了一个工具,允许人们只需一个简短的音频片段就可以克隆一个声音之后,ElevenLabs在Twitter上表示,他们看到“越来越多的声音克隆滥用案例”。据当时的新闻报道,这些滥用案例源自网站4chan上的用户,分享了播客主持人Joe Rogan和女演员Emma Watson似乎使用种族主义和恐同言论的片段。
名人模仿给ElevenLabs带来了法律困境。1988年,一家上诉法院裁定,著名人士有权利禁止未经允许使用其声音等独特特征进行商业用途。(此问题起因于Bette Midler起诉Ford Motor Co.雇佣一名歌手模仿她的声音,而她拒绝亲自在广告中演唱。)
为了减少滥用,ElevenLabs开始收取每月1美元的费用,用于其之前免费的语音克隆工具。这并没有使制作音频深度伪造成本过高,但意味着用户必须连接可追踪的支付方式,如信用卡,这可能会阻止不良行为者并有助于执法。
ElevenLabs表示,他们不会“就具体事件发表评论,但如果有违反我们条款的内容被提出,我们将采取适当行动。” Staniszewski在一月接受彭博新闻采访时表示,公司技术几乎所有用途都是合法的,ElevenLabs可以追踪用户使用语音克隆创建的短语。“所有的安全措施都是至关重要的,”他说。
据一位熟悉该公司运营的人士透露,公司于2023年底开始制定计划,以应对具有各种恶意意图的用户。ElevenLabs首席幕僚维多利亚·韦勒特特别关注于在2024年英国在线安全法案和欧洲数字服务法案生效之前制定规则。她希望制定围绕冒犯性语言的政策,并为员工制定手册,以便他们清楚何时可以禁止客户。ElevenLabs的使用规则禁止“欺骗性或误导性的语音克隆”和“煽动暴力或宣扬仇恨的内容”。但他们也承认公司不会“主动监控您在我们服务上的内容。”
ElevenLabs的40名员工中有五名致力于信任和安全。在采访中,熟悉该公司工作的人表示,创始人们热衷于防止可能发生的选举舞弊或滥用语言。但人工智能和信任与安全方面的专家表示,几乎不可能阻止人们利用公开可用的生成式人工智能工具创建有问题的内容。社区经理Mohamed Abdihakim Mohammed表示,科技公司通常致力于阻止90%的有害行为,他曾在许多软件公司从事内容审核工作。但初创公司“实际上无法阻止如此易于获取的语音克隆技术造成破坏,”他说。
拜登的自动拨号电话显示了ElevenLabs技术防护措施的局限性。该公司提供一种称为“语音分类器”的工具,据称可以确定音频剪辑是否合成以及任何特定剪辑是否使用了其软件创建。彭卓普和彭卓普使用该工具检查了拜登的一个剪辑,技术显示这不是一个深度伪造视频。其他公司的类似工具得出了相反的结论,而在清除背景噪音后,ElevenLabs自己的工具得出结论,其技术最终被使用了。
这一变化的判决显示,深度伪造检测工具离源头越远,可靠性就越低。创作者可以添加噪音或其他扭曲来干扰工具。社交媒体上事实核查项目的记录也表明,即使检测完美,影响也会有限。一旦有人制作了音频剪辑,它就可能在社交网络上广泛传播,误导性内容往往会传播到不愿相信那些声称与他们产生共鸣的内容是非法的观众中。
大约有121,000人观看了其中一个虚假的豪利特视频。他说,更多类似的内容“可能会破坏未来的商机”。他还担心这会让他的粉丝面临欺诈风险。“我不希望我的追随者受骗”,他说。
然后是2024年的选举。深度伪造视频的创作者们一直在积极探索可能性。其中之一是YouTube上的创作者Samin Yasar,他是AI Answers的创始人,这是一个致力于利用AI音频替代呼叫中心的服务。今年一月,Yasar发布了一个视频,称他使用ElevenLabs为两个政治竞选克隆了声音。
Yasar摄影师:Amy Lombard,彭博商业周刊视频的灵感来自与Adam Wynns的对话,他是一个日光浴床企业家,创立了一个名为Winningest Method的企业,提供生活辅导和减肥药。Wynns问Yasar是否可能创建一个大规模的自动政治电话竞选活动,以从选民那里收集民意调查信息。他告诉Yasar,他认识一些可能会利用这项技术的人。
为了做出概念验证,Yasar使用ElevenLabs克隆了MyPillow首席执行官Mike Lindell的声音,他在右翼政治中活跃,并因涉及对2020年总统选举的虚假指控而被投票机公司Dominion Voting Systems Inc.起诉13亿美元。Lindell否认有任何不当行为。“我坚信我们需要审查我们的投票系统并确保透明度”,音频宣称,根据Businessweek审查的样本,这是由ChatGPT创建的脚本。 “我的努力集中在调查不正常情况上。”
Lindell摄影师:Joshua Roberts/BloombergYasar将音频上传到一个自动拨号服务。假冒的 Lindell 可以回答选民的问题和评论,类似于自动客户服务电话。
Wynns 说他向 Lindell 和 Scott Jensen 提出了这个想法,后者是一位前明尼苏达州共和党州长候选人,因传播 Covid-19 虚假信息而受到批评。他从未收到回复,最终在商业化这项技术之前放弃了这个想法,称潜在的法律问题开始让他感到紧张。尽管从技术上讲,没有任何阻止他的事情。 —与 Mark Bergen**阅读下一篇: 没有法律保护人们免受深度伪造色情内容的侵害。这些受害者进行了反击