英伟达发布创新AI模型Fugatto音频领域的瑞士军刀
全球领先的计算技术公司英伟达近日宣布了一项性的创新成果——Fugatto,一款基于生成式Transformer架构的人工智能模型,被誉为音频领域的“瑞士军刀”。
Fugatto拥有25亿个参数,并在由32个NVIDIA H100 Tensor Core GPU组成的NVIDIA DGX系统上进行了训练,使其能够执行多种复杂的音频生成和转换任务。这款模型专为音乐、电影和视频游戏制作人设计,旨在帮助他们以前所未有的方式创作和编辑音频内容。
据NVIDIA应用音频研究经理Rafael Valle介绍,Fugatto的研发目标是创建一个能够像人类一样理解和生成声音的模型。它不仅能够根据文本描述生成音效和音乐,还能实现如将钢琴演奏转换声歌唱、改变录音的口音和情绪等高级功能。
对于音乐制作人来说,Fugatto将极大地提升工作效率和创意空间。他们可以快速制作音乐原型、尝试不同的风格、声音和乐器,同时提高现有轨道的音频质量。广告代理商和视频游戏开发人员同样能从中受益,前者可以快速调整广告活动的口音和情感,后者则能动态创建游戏内音频素材或修改预录制的音频。
Fugatto的创新性体现在多个方面。首先,它采用了ComposableART技术,能够在推理过程中组合在训练期间单独学习的指令,如将法国口音与悲伤情绪相结合。其次,该模型具有指令插值能力,允许用户对文本指令进行精细控制,如调整重音和情绪强度。此外,Fugatto还能生成随时间变化的声音,如模拟暴雨逐渐增强又慢慢消失的场景,为音景创作提供了更多可能性。
最重要的是,与大多数只能重现训练数据的模型不同,Fugatto能够创造出全新的音景,如雷雨逐渐缓和为黎明的场景,展示了其在音频生成领域的无限潜力。
随着Fugatto的发布,英伟达再次展示了其在人工智能领域的领导地位,为音频创作和编辑带来了前所未有的创新和便利。这款“声音的瑞士军刀”无疑将在音乐、广告和视频游戏等多个行业中发挥重要作用,开启音频创作的新。