Nvidia推出可以修改声音和生成新声音的人工智能模型 | 路透社

Stephen Nellis

2024-11-25

11月25日（路透社）- 英伟达(NVDA.O)在周一推出了一种新的人工智能模型，用于生成音乐和音频，可以修改声音并生成新声音——这项技术面向音乐、电影和视频游戏的制作人。英伟达是全球最大的芯片和软件供应商，用于创建人工智能系统，表示没有立即向公众推出其称为Fugatto的技术的计划，Fugatto是Foundational Generative Audio Transformer Opus 1的缩写。

它与其他初创公司如Runway和大型企业如Meta(META.O)推出的技术相结合，这些技术可以根据文本命令生成音频或视频。英伟达的版本根据文本描述生成音效和音乐，包括新声音，例如让小号像狗一样吠叫。

它与其他人工智能技术的不同之处在于其捕捉和修改现有音频的能力，例如，将钢琴演奏的旋律转换为人声演唱的旋律，或改变口音和表达的情感。

“如果我们回顾过去50年的合成音频，音乐因为计算机和合成器而听起来不同，”英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗说。“我相信生成性人工智能将为音乐、视频游戏以及想要创造东西的普通人带来新功能。”

尽管像OpenAI这样的公司正在与好莱坞的制片厂谈判关于人工智能是否以及如何可以在娱乐行业中使用，但科技界与好莱坞之间的关系紧张，尤其是在明星斯嘉丽·约翰逊指控OpenAI模仿她的声音之后。

英伟达的新模型是用开放数据训练的，该公司表示仍在讨论是否以及如何公开发布它。

“任何生成技术总是带来一些风险，因为人们可能会用它生成我们希望他们不要做的事情，”卡坦扎罗说。“我们需要对此保持谨慎，这就是为什么我们没有立即公开发布它的计划。”

生成性人工智能模型的创建者仍需确定如何防止技术被滥用，例如用户生成不正确的信息或通过生成受版权保护的角色来侵犯版权。

((翻译编辑部圣保罗, +55 11 5047-3075))

路透社 FC

建议主题：
商业
商业