OpenAI预览新的音频工具，可以阅读文本，模仿声音 - 彭博社

Shirin Ghaffary

2024-03-30

摄影师：大卫·保罗·莫里斯/彭博社OpenAI正在分享一个功能的早期测试结果，该功能可以用一种令人信服的人类声音朗读文字 — 强调了人工智能的一个新领域，并引发了深度伪造风险的担忧。

该公司正在分享文本转语音模型的小规模预览的早期演示和用例，该模型名为Voice Engine，目前已与大约10名开发人员共享，一位发言人表示。OpenAI决定不对该功能进行更广泛的推广，该公司在本月早些时候向记者介绍了这一功能。

OpenAI的一位发言人表示，该公司在收到政策制定者、行业专家、教育工作者和创意人士等利益相关者的反馈后，决定缩减发布范围。根据早前的新闻发布会，该公司最初计划通过申请流程向多达100名开发人员发布该工具。

“我们意识到生成类似人们声音的语音存在严重风险，尤其是在选举年，这一点尤为引人关注，”该公司在周五的一篇博文中写道。“我们正在与来自美国和国际各界的合作伙伴进行交流，包括政府、媒体、娱乐、教育、公民社会等，以确保我们在构建过程中纳入他们的反馈意见。”

其他人工智能技术已经被用于在某些情境中伪造声音。今年1月，一通虚假但听起来逼真的电话声称来自乔·拜登总统，鼓励新罕布什尔州的人们不要在初选中投票 — 这一事件在关键的全球选举前引发了人工智能的恐惧。

与OpenAI以往生成音频内容的努力不同，Voice Engine可以创建听起来像个别人的语音，包括他们特定的语调和语调。软件所需的只是一个人说话的录音15秒，就可以重新创建他们的声音。

在工具演示期间，彭博社听到了OpenAI首席执行官Sam Altman简要解释技术的片段，声音听起来与他实际演讲无法区分，但完全是由AI生成的。

“如果你有正确的音频设置，基本上就是人类级别的声音，”OpenAI的产品负责人Jeff Harris说。“这是一个相当令人印象深刻的技术质量。” 但是，Harris说，“显然在能够真正准确模仿人类语音方面存在很多安全问题。”

Sam Altman摄影师：Chris Ratcliffe/彭博社OpenAI目前的开发合作伙伴之一，诺曼·普林斯神经科学研究所（Lifespan非营利性健康系统）正在使用该工具帮助患者恢复他们的声音。例如，该工具被用来恢复一个年轻患者的声音，她因脑瘤而失去清晰说话能力，通过复制她早期录音的讲话内容用于学校项目，公司的博客文章中提到。

OpenAI的定制语音模型还可以将其生成的音频翻译成不同的语言。这使得它对像Spotify Technology SA这样的音频公司很有用。Spotify已经在自己的试点项目中使用了这项技术，翻译了像Lex Fridman这样的热门主持人的播客。OpenAI还宣传了该技术的其他有益应用，比如为儿童教育内容创造更广泛的声音范围。

在测试计划中，OpenAI要求其合作伙伴同意其使用政策，获得原始发言者的同意后才能使用其语音，并向听众披露他们听到的声音是由AI生成的。该公司还正在安装一种听不见的音频水印，以便区分一段音频是否是由其工具创建的。

在决定是否更广泛地发布该功能之前，OpenAI表示正在征求外部专家的反馈意见。“全世界的人都了解这项技术的发展方向是很重要的，无论我们最终是否自己广泛部署它，”该公司在博客文章中说道。

OpenAI还写道，希望其软件的预览“激发对抗更先进AI技术带来挑战的社会韧性”的需求。例如，该公司呼吁银行淘汰语音验证作为访问银行账户和敏感信息的安全措施。它还寻求公众对欺骗性AI内容的教育，以及更多关于检测音频内容是真实还是AI生成的技术的发展。