Nvidia宣布新的人工智能模型,能够修改声音并生成新声音 | 路透社
Stephen Nellis
11月25日(路透社)- 英伟达周一宣布了一种新的人工智能(AI)模型,用于生成音乐和音频,能够修改声音并生成新颖的声音,这项技术面向音乐、电影和视频游戏的制作人。
作为全球最大的芯片和软件供应商,英伟达表示没有立即公开这项技术的计划,该技术被称为Fugatto(基础生成音频变换器Opus 1的缩写)。
因此,它与Runway等初创公司和Meta Platforms (META.O)等大型企业展示的其他技术相结合,这些技术能够根据文本生成音频或视频。英伟达的版本 (NVDA.O)能够根据文本描述生成音效和音乐,包括新颖的声音,例如让小号听起来像狗叫。它与其他AI技术的区别在于其捕捉和修改现有音频的能力,例如,将一段钢琴演奏的旋律转变为人声演唱的旋律,或将一段口语录音的口音和表达的情绪进行改变。
“如果我们回顾过去50年的合成音频,音乐现在听起来不同了,这要归功于合成器,”英伟达深度学习应用研究副总裁布莱恩·卡坦扎罗说。“我认为生成AI将为音乐、视频游戏以及想要创造东西的普通人带来新的能力。”
新的Nvidia模型是用开放代码数据训练的,该公司表示仍在讨论是否以及如何公开发布。
“任何生成技术总是伴随着一定的风险,因为人们可能会利用它生成我们希望他们不这样做的东西,”Catanzaro表示。“我们必须对此保持谨慎,因此我们没有立即公开发布的计划。”
由Javier Leira编辑
- 建议主题:
- 技术
- 技术