埃隆·马斯克的推特报价数字：亚历克斯·韦伯 - 彭博社

Alex Webb

2022-04-14

埃隆·马斯克摄影师：Al Drago/BloombergJordan Howlett

摄影师：约翰·弗朗西斯·彼得斯，彭博商业周刊埃隆·马斯克。 Twitter公司。一份价值430亿美元的收购要约。并且这家微博平台的2.17亿用户都为之倒抽一口冷气。

除了他对编辑按钮的渴望和一些关于“言论自由”和Twitter“非凡潜力”的模糊评论外，我们无法确定马斯克对这家总部位于旧金山的公司有何打算。让我们暂且不去担心作为所有者，他是否会成为一个负责任的管理者，而是来看看冷酷无情的财务数据。

26岁的Jordan Howlett在Instagram、TikTok和YouTube上拥有2400万粉丝，非常谨慎地选择与之合作的品牌。他已经与Domino’s Pizza、Google和WingStop签署了协议，并通过创作视频谋生，视频内容涵盖如何“像专业人士一样打开罐子”或“正确吃Chipotle碗”的最佳方式。因此，当他开始收到询问为什么在Facebook和Instagram上为所谓的治疗失明的产品做广告时，他感到恐慌。

Howlett点击了相关视频中的一个链接，并听着一个声音，听起来就像是他自己，描述了“剑桥的顶尖研究人员”发现了一个可以让任何人拥有完美视力的七秒仪式。视频中包含了脑部X光和中年人眯着眼睛看手机的库存图像，剪辑非常粗糙。但根据Howlett的说法，声音却非常令人信服。“当我听到自己的声音时，我感到恐惧，”他说。“他们理论上可以让我说任何话。”

网络安全专家多年来一直在警告深度伪造——人工生成或篡改的媒体，可以通过真实。虽然很多关注点集中在图像和视频上，但在过去一年中已经明显，音频深度伪造，有时被称为声音克隆，构成了最直接的威胁。欺诈检测机构Pindrop的创始人Vijay Balasubramaniyan表示，他的公司已经开始看到对银行客户的攻击，欺诈者使用合成音频冒充账户持有人进行客户支持电话。

豪利特说，他对自己声音的伪造录音感到“恐惧”。摄影师：约翰·弗朗西斯·彼得斯，彭博商业周刊另一个主要担忧是政治操纵，比如当2万新罕布什尔州选民收到一通电话声称是来自总统乔·拜登，敦促他们不要在第二天投票给他。这没有明显的实际影响：拜登甚至不在选票上，但仍然通过一场自荐活动大获全胜。尽管如此，这一事件强化了这种技术可能在今年选举中发挥重要作用的担忧。2月8日，美国联邦通信委员会禁止使用人工智能的自动电话活动。

Pindrop表示，Howlett的视频是通过将他讲话的录音（显然是从他的YouTube或Instagram视频中获取）输入由一家名为 ElevenLabs的初创公司开发的软件来克隆他的声音而创建的。从那时起，正如Howlett担心的那样，ElevenLabs的技术赋予其用户以使用他的声音创建令人毛骨悚然的逼真音频叙述的能力。另外两位独立研究人员分析了拜登的电话录音，并确定该音频也是使用ElevenLabs技术生成的。。

童年朋友Mati Staniszewski，一位曾在 Palantir Technologies Inc.担任部署战略师的前同事，以及Piotr Dąbkowski，一位前 Google机器学习工程师，两年前创立了ElevenLabs。他们在波兰长大，看着被拙劣配音成波兰语的好莱坞电影，认为人工智能可以让今天的孩子们免受类似经历的困扰。他们认为，同样的工具可以用来叙述在线课程或有声书，甚至翻译实时对话。

这个想法让ElevenLabs成为了生成式人工智能行业中最受关注的初创公司之一。。它并不是唯一的语音克隆服务提供商，但它已经跻身行业前列。ElevenLabs已经从包括 Andreessen Horowitz、 Smash Capital和 DeepMind联合创始人Mustafa Suleyman在内的投资者那里筹集了资金。该公司最近一轮融资于一月宣布，使其估值达到了11亿美元。熟悉ElevenLabs内部运作的人士表示，管理层并不希望看到其产品被用于制作欺诈性的互联网广告或选民压制材料。但正如成功的互联网初创公司经常发生的情况一样，该公司的工具传播得比开发防范滥用的措施更快。

ElevenLabs提供了一个免费的通用语音库，但对于可识别的克隆声音的需求迅速增加。在2023年1月推出了一个工具，允许人们只需一个简短的音频剪辑就可以克隆声音后不久，ElevenLabs在Twitter上表示，他们看到“越来越多的声音克隆滥用案例”。据当时的新闻报道，这些滥用案例起源于网站4chan上的用户，分享了播客乔·罗根和女演员艾玛·沃特森似乎使用种族主义和同性恋歧视言论的片段。

名人模仿给ElevenLabs带来了法律困境。1988年，一家上诉法院裁定著名人士有权禁止未经允许使用其声音等独特特征进行商业用途。（这个问题起源于贝蒂·米德勒起诉Ford Motor Co.，因为后者在她拒绝为广告唱歌后聘请一名歌手模仿她的声音。）

为了减少滥用，ElevenLabs开始对之前免费的语音克隆工具收取每月1美元的费用。这并没有使制作音频深度伪造变得成本高昂，但这意味着用户必须连接可追踪的付款方式，如信用卡，这可能会阻止不良行为者并有助于执法。

ElevenLabs表示，他们不会“评论特定事件，但如果违反我们条款的内容被提出，我们将采取适当行动。” Staniszewski在一月接受彭博新闻采访时表示，公司技术几乎所有的用途都是合法的，ElevenLabs可以追踪用户使用语音克隆创建的短语。“所有的安全措施都是至关重要的，”他说。

2023年底，该公司开始制定一项计划，以应对那些具有各种恶意意图的用户，根据一位熟悉该公司运营的人士透露，该人士要求匿名讨论非公开信息。 ElevenLabs首席幕僚维多利亚·韦勒特别关注于在2024年英国《在线安全法案》和欧洲《数字服务法案》生效之前制定规则。她希望制定围绕冒犯性语言的政策，并为员工制定手册，以便他们清楚何时可以封禁客户。 ElevenLabs的使用规则禁止“欺骗性或误导性语音克隆”和“煽动暴力或宣扬仇恨的内容”。但他们也承认公司不会“主动监控您在我们服务上的内容”。

ElevenLabs的40名员工中有五名致力于信任和安全工作。熟悉该公司工作的人在采访中表示，创始人们热衷于防止可能发生的选举舞弊或滥用语言。但人工智能和信任与安全领域的专家表示，几乎不可能阻止人们利用公开可用的生成式人工智能工具创建有问题的内容。社区经理穆罕默德·阿卜迪哈基姆·穆罕默德表示，科技公司通常旨在阻止90%的有害行为。但初创公司“无法真正阻止如此易于获取的语音克隆技术造成的破坏”，他说。

拜登的电话自动拨号显示了ElevenLabs技术防护措施的局限性。该公司提供了一种称为“语音分类器”的工具，据称可以确定音频剪辑是否是合成的，以及任何特定剪辑是否是使用其软件创建的。Bloomberg Businessweek和Pindrop使用该工具检查了拜登的其中一个剪辑，技术表示这不是深度伪造。其他公司的类似工具得出了相反的结论，而在剪辑经过清理以消除背景噪音后，ElevenLabs自己的工具最终得出结论，确认其技术确实被使用。

这一变化的判决显示，深度伪造检测工具在离源头越远时往往变得不太可靠。创作者可以添加噪音或其他扭曲来迷惑这些工具。社交媒体上事实核查项目的记录也表明，即使检测完美，影响也会有限。一旦有人制作了音频剪辑，它就可能在社交网络上广泛传播，误导性内容往往会传播到那些不愿意相信那些声称与他们产生共鸣的材料是不正当的观众中。

大约有121,000人观看了一段虚假的Howlett视频。更多类似的内容可能“潜在地破坏未来的商机，”他说。他还担心这会让他的粉丝面临欺诈风险。“我不希望我的追随者受骗，”他说。

然后是2024年的选举。深度伪造创作者一直在热情地探索可能性。其中之一是YouTube上的创作者Samin Yasar，他是AI Answers的创始人，这是一个致力于利用AI音频替换呼叫中心的服务。今年一月，Yasar发布了一个视频，称他曾代表两个政治活动使用ElevenLabs克隆声音。

Yasar摄影师：Amy Lombard，彭博商业周刊视频的灵感来自与Adam Wynns的对话，他是一个日光浴床企业家，创立了一个名为Winningest Method的业务，提供生活辅导和减肥药。Wynns问Yasar是否可能创建一个大规模的自动政治电话活动，以从选民那里收集民意调查信息。他告诉Yasar，他认识一些可能会利用这项技术的人。

为了制作一个概念验证，Yasar使用ElevenLabs克隆了MyPillow的首席执行官Mike Lindell的声音，他在右翼政治中活跃，并因与投票机公司Dominion Voting Systems Inc.有关的关于2020年总统选举的虚假言论而被起诉13亿美元。Lindell否认有任何不当行为。“我坚信我们需要审查我们的投票系统并确保透明度，”这段音频宣称，根据ChatGPT审查的样本。“我的努力集中在调查不正常情况上。”

Lindell摄影师：Joshua Roberts/彭博Yasar将音频上传到一个自动拨号服务。这个虚假的Lindell可以回答选民的问题和评论，类似于自动客户服务电话。

温斯表示，他向林德尔和斯科特·詹森（Scott Jensen）提出了这个想法，詹森是一位前明尼苏达州共和党州长候选人，因传播新冠病毒的错误信息而受到批评。他从未收到回复，最终在商业化这项技术之前放弃了这个想法，称潜在的法律问题开始让他感到紧张。但从技术上讲，没有任何阻止他的东西。 —与马克·伯根阅读下一篇文章： 没有法律保护人们免受深度伪造色情内容的侵害。这些受害者进行了反击