图形与 AI 巨头 Nvidia 宣布推出一款名为 Fugatto(全称 Foundational Generative Audio Transformer Opus 1)的新型 AI 声音模型。由一支国际研究团队开发的 Fugatto 被称为“全球最灵活的声音生成器”,一举挑战 ElevenLabs 和 AI 音乐制作工具 Suno。
这款模型将带来音频处理与生成方式的全新范式,超越了简单的文本转语音或基于文本提示生成音乐的传统功能,提供了我们前所未见的创新特性。
目前,Fugatto 尚未公开试用,只以研究论文形式呈现。但未来,它有可能授权给 Nvidia 的合作伙伴,我们将看到声音开发方式的重大变革。
Fugatto 的工作原理
??? “世界上最灵活的声音生成器”?这个新的生成式 AI 模型 Fugatto,结合文本和音频输入,可以生成任何音乐、声音和声音效果的组合。
Nvidia Fugatto 的关键特性在于它能够展现“组合艺术能力”(ComposableART),即通过结合不同的能力以新方式实现模型未曾训练的功能。这一特性被研究团队描述为“涌现能力”。
在 Fugatto 的研究论文中,作者演示了模型生成的效果,例如模拟一种愤怒喊叫的大提琴声或吠叫的萨克斯风。尽管听起来有些滑稽,但项目主页上展示的效果极为令人印象深刻。
例如,Fugatto 能够即时将语音转换为不同的口音和情感强度,或无缝地为现有音乐表演添加或移除乐器。虽然其他模型(如 OpenAI 的 Advanced Voice、ElevenLabs 的 SFX 模型或 Google 的 MusicFX 实验)也具备类似功能,但 Fugatto 是首次将这些能力集中在单一模型中。
Fugatto 的应用前景
研究团队提出了一些令人惊叹的应用场景,例如实时生成复杂的声音效果,其中许多是全新的或具有独特创意的声音。
对于游戏开发者和电影制作人来说,这无疑是一项重要消息:几乎任何类型的声音景观都可以通过 AI 一键生成。这款模型的强大功能由 25 亿个参数驱动,并在大量 Nvidia 处理器上进行训练。
不过,像许多早期研究模型一样,我们可能需要等待一段时间才能看到一款完整的产品上市。生成四秒钟的雷暴或机械怪物音效相对简单,但将其应用于现实场景中则是另一回事。
毫无疑问,这一技术标志着机器在掌握另一种艺术形式的能力上迈出了重要的一步。这或许是我们首次看到此类 AI 生成能力,但绝不会是最后一次。
关注公众号【真智AI】
TOP AI模型智能问答|绘图|识图|文件分析
每天分享AI教程、赚钱技巧和前沿资讯!