英伟达展示了一种可以修改声音并创建新声音的人工智能模型 | 路透社

Reuters

2024-11-25

25 نوفمبر تشرين الثاني (路透社) - 今日周一，英伟达公司展示了一种新的专注于音乐和音频的人工智能模型，能够修改声音并生成新声音，这项技术旨在为音乐、电影和视频游戏制作人提供服务。

英伟达公司是全球最大的用于创建人工智能系统的芯片和软件供应商，表示尚未制定推出其名为Fugato的技术的计划。

Fugato加入了其他技术，这些技术由初创公司如“Ran Wei”和更大公司如“Meta Platforms”展示，能够通过文本指令生成声音或视频。

这家总部位于美国加利福尼亚州的圣克拉拉公司，是英伟达的子公司，能够根据文本描述生成音效和音乐内容，包括像狗吠声一样的喇叭声。

但这项新技术与其他人工智能技术的不同之处在于它能够理解现有声音并进行修改，例如通过接收钢琴演奏的音符并将其转换为人声演唱，或通过接收录制的口语词汇并改变使用的口音和表达方式。

英伟达应用学习研究部门副总裁布赖恩·卡坦扎罗表示：“如果我们回顾过去五十年的人造声音，音乐现在因计算机和合成器而显得不同……我认为生成性人工智能将为音乐、视频游戏以及希望创建内容的普通人提供新的能力。”

与此同时，像（OpenAI）这样的公司正在与好莱坞的工作室谈判，讨论是否可以在娱乐产业中使用人工智能以及如何使用，尤其是在好莱坞明星斯嘉丽·约翰逊指控OpenAI复制她的声音后，科技与好莱坞之间的关系变得紧张。

新模型由英伟达提供，基于开放源代码数据进行训练。该公司表示，仍在讨论是否以及如何公开发布该模型。

卡坦扎罗表示：“任何生成技术总是伴随着一些风险，因为人们可能会利用它来创建我们不希望被创建的东西……我们需要对此保持谨慎，这就是为什么我们没有立即发布这项技术的计划。”

到目前为止，生成性人工智能模型的创造者们尚未能够确定如何防止技术被滥用，例如用户创建误导性信息或侵犯版权。

阿米拉·扎赫兰为阿拉伯通讯社准备 - 艾曼·萨义德·穆斯林编辑