英伟达展示了可以修改声音、生成新声音的人工智能模型 | 路透社

Stephen Nellis

2024-11-25

一部显示NVIDIA标志的智能手机放置在计算机主板上，这张插图拍摄于2023年3月6日。路透社/Dado Ruvic/插图/档案照片11月25日（路透社） - 英伟达(NVDA.O)周一展示了一种新的人工智能模型，用于生成音乐和音频，能够修改声音并生成新颖的声音——这项技术旨在服务于音乐、电影和视频游戏的制作人。英伟达是全球最大的芯片和软件供应商，专注于创建人工智能系统，表示目前没有公开发布其称为Fugatto的技术的计划，Fugatto是“基础生成音频变换器Opus 1”的缩写。

它与其他初创公司如Runway和大型企业如Meta Platforms(META.O)展示的其他技术相结合，这些技术可以从文本提示生成音频或视频。总部位于加利福尼亚州圣克拉拉的英伟达版本能够根据文本描述生成音效和音乐，包括新颖的声音，例如让小号像狗一样吠叫。

它与其他人工智能技术的不同之处在于其能够接收和修改现有音频，例如通过将钢琴演奏的旋律转变为人声演唱的旋律，或通过改变口音和表达的情绪来修改口语录音。

“如果我们回顾过去50年的合成音频，音乐现在听起来不同了，因为计算机，因为合成器，”Nvidia应用深度学习研究副总裁Bryan Catanzaro说。“我认为生成性人工智能将为音乐、视频游戏以及想要创造东西的普通人带来新的能力。”

虽然像OpenAI这样的公司正在与好莱坞制片厂谈判关于人工智能在娱乐行业的使用方式和使用范围，但科技与好莱坞之间的关系变得紧张，特别是在好莱坞明星斯嘉丽·约翰逊指控OpenAI模仿她的声音之后。

Nvidia的新模型是在开源数据上训练的，该公司表示仍在讨论是否以及如何公开发布它。

“任何生成技术总是带有一些风险，因为人们可能会利用它生成我们希望他们不要生成的东西，”Catanzaro说。“我们需要对此保持谨慎，这就是为什么我们没有立即发布这个的计划。”

生成性人工智能模型的创造者尚未确定如何防止技术被滥用，例如用户生成虚假信息或通过生成受版权保护的角色侵犯版权。

OpenAI和Meta (META.O)同样没有说明他们计划何时向公众发布生成音频或视频的模型。路透社每日简报新闻通讯提供您开始一天所需的所有新闻。请在这里注册。

建议主题：
人工智能
人工智能