如果我告诉你人工智能可以发明以前从未听过的全新声音,你会怎么想?无论是萨克斯风的叫声、救护车合唱团的歌声、流水声与原声吉他的混合声还是其他疯狂的想法……有了英伟达最新的人工智能Fugatto,一切皆有可能。
英伟达刚刚发布了一些新产品,它将点燃音频和音乐世界。这就是 Fugatto,一种能够合成声音并重新创作著名歌曲的模型。更重要的是,她想象出从未存在过的声音。然后她将旋律、音效和声音结合到新的创作中。无论您是想听到班卓琴在雨中的笑声,还是想将吉他变成瀑布般的声音,Fugatto 都承诺突破您听觉想象力的极限。
Nvidia Fugatto 创作出前所未闻的声音
我知道人工智能合成语音或创作音乐并不是什么新鲜事。但Fugatto进一步深化了这一概念。 英伟达随后将其模型描述为“声音瑞士军刀”。因此,该人工智能并不只是简单地再现现有的声音。她从头开始转变、组合并创造声音宇宙。
在演示网站上,什么都有!例如,人类的声音被修改得就像在水下说话一样,乐器变成了奇怪的声音生物。或者给人留下工厂机器在“金属痛苦”中尖叫的印象。
因此,Fugatto 依赖于一个条件指导系统,一个名为ComposableART的工具。它就像一个疯狂的 DJ,可以混合声音和指令来生成全新的东西。请求一种结合了班卓琴和婴儿笑声的声音怎么样?
从头开始创建模板
此外,英伟达在一篇研究文章中解释了训练 Fugatto 时遇到的困难。语言模型很容易理解文本指令,而音频则有点复杂。我们如何描述声音,最重要的是,我们如何将这些描述与特定特征联系起来?
所以解决方案是生成综合描述。因此,研究人员使用语言模型等工具来创建非常精确的指令。例如“合成一个快乐的声音”或“使口音更明显”。
接下来,专家们向 Fugatto 提供了50,000 小时的开源音频数据。这些都被注释到最小的细节,例如混响或声音的频率。因此,这导致了在32 个 Nvidia Tensor 核心上训练的包含25 亿个参数的庞大模型。
混合声音世界的艺术
我发现 Fugatto 最出色的地方在于它能够将所有内容混合在一起。此外,借助此人工智能,您可以调整组合中每个元素的“权重”以创建独特的结果。
英伟达提供了一些真正让你梦想的例子,比如改变法国口音,使其或多或少地发音,或者改变声音的情绪,比如让演讲变得更悲伤或更快乐。您还可以添加不可能的声音,例如吠叫或机器噪音,同时尊重歌曲的节奏。
然而,英伟达坚持了一个重要观点。Fugatto 的存在不是为了取代创作者,而是为了激励他们。“音乐与技术有关,”制作人和词曲作者伊多·兹米什拉尼 (Ido Zmishlany) 解释道。他还将这一创新与电吉他或采样器的发明进行了比较,这些工具永远改变了音乐。
目前,Fugatto尚未向公众开放,但可能的应用已经令人印象深刻。例如,歌曲的原型设计、视频游戏的互动音乐以及适合国际受众的广告……