Nvidia宣布新的人工智能模型，能够修改声音并生成新声音 | 路透社

Stephen Nellis

2024-11-25

11月25日（路透社）- 英伟达周一宣布了一种新的人工智能（AI）模型，用于生成音乐和音频，能够修改声音并生成新颖的声音，这项技术面向音乐、电影和视频游戏的制作人。

作为全球最大的芯片和软件供应商，英伟达表示没有立即公开这项技术的计划，该技术被称为Fugatto（基础生成音频变换器Opus 1的缩写）。

因此，它与Runway等初创公司和Meta Platforms (META.O)等大型企业展示的其他技术相结合，这些技术能够根据文本生成音频或视频。英伟达的版本 (NVDA.O)能够根据文本描述生成音效和音乐，包括新颖的声音，例如让小号听起来像狗叫。它与其他AI技术的区别在于其捕捉和修改现有音频的能力，例如，将一段钢琴演奏的旋律转变为人声演唱的旋律，或将一段口语录音的口音和表达的情绪进行改变。

“如果我们回顾过去50年的合成音频，音乐现在听起来不同了，这要归功于合成器，”英伟达深度学习应用研究副总裁布莱恩·卡坦扎罗说。“我认为生成AI将为音乐、视频游戏以及想要创造东西的普通人带来新的能力。”

新的Nvidia模型是用开放代码数据训练的，该公司表示仍在讨论是否以及如何公开发布。

“任何生成技术总是伴随着一定的风险，因为人们可能会利用它生成我们希望他们不这样做的东西，”Catanzaro表示。“我们必须对此保持谨慎，因此我们没有立即公开发布的计划。”

由Javier Leira编辑

建议主题：
技术
技术