英伟达发布创新AI模型Fugatto音频领域的瑞士军刀

全球领先的计算技术公司英伟达近日宣布了一项性的创新成果——Fugatto，一款基于生成式Transformer架构的人工智能模型，被誉为音频领域的“瑞士军刀”。

Fugatto拥有25亿个参数，并在由32个NVIDIA H100 Tensor Core GPU组成的NVIDIA DGX系统上进行了训练，使其能够执行多种复杂的音频生成和转换任务。这款模型专为音乐、电影和视频游戏制作人设计，旨在帮助他们以前所未有的方式创作和编辑音频内容。

据NVIDIA应用音频研究经理Rafael Valle介绍，Fugatto的研发目标是创建一个能够像人类一样理解和生成声音的模型。它不仅能够根据文本描述生成音效和音乐，还能实现如将钢琴演奏转换声歌唱、改变录音的口音和情绪等高级功能。

对于音乐制作人来说，Fugatto将极大地提升工作效率和创意空间。他们可以快速制作音乐原型、尝试不同的风格、声音和乐器，同时提高现有轨道的音频质量。广告代理商和视频游戏开发人员同样能从中受益，前者可以快速调整广告活动的口音和情感，后者则能动态创建游戏内音频素材或修改预录制的音频。

Fugatto的创新性体现在多个方面。首先，它采用了ComposableART技术，能够在推理过程中组合在训练期间单独学习的指令，如将法国口音与悲伤情绪相结合。其次，该模型具有指令插值能力，允许用户对文本指令进行精细控制，如调整重音和情绪强度。此外，Fugatto还能生成随时间变化的声音，如模拟暴雨逐渐增强又慢慢消失的场景，为音景创作提供了更多可能性。

最重要的是，与大多数只能重现训练数据的模型不同，Fugatto能够创造出全新的音景，如雷雨逐渐缓和为黎明的场景，展示了其在音频生成领域的无限潜力。

随着Fugatto的发布，英伟达再次展示了其在人工智能领域的领导地位，为音频创作和编辑带来了前所未有的创新和便利。这款“声音的瑞士军刀”无疑将在音乐、广告和视频游戏等多个行业中发挥重要作用，开启音频创作的新。

标签：芯片是怎么生产的、 1纳米芯片有多强、国产车为啥不缺芯片、芯片基础知识介绍、芯片制造