Meta开源AI音乐创作工具,AudioCraft如何颠覆音乐创作?
全文2700字,阅读需3分钟
8月2日,Meta发布了一款名为AudioCraft的生成式AI音乐创作工具,并将其开源,以供研究人员和音乐人使用。
AI工具可以根据文本提示生成高质量的音乐和声音,无需弹奏乐器,也无需担心版权问题。AudioCraft由三个模型组成,分别是MusicGen、AudioGen和EnCodec,它们都是在大量的音频数据上训练而成,可以捕捉音频中的复杂信号和模式,并生成逼真的录音条件和场景语境。
据Meta介绍,MusicGen是用2万小时的授权音乐训练而成,可以生成高质量的音乐。AudioGen是用公共音效训练而成,可以生成各种环境声和音效,例如狗叫、汽车鸣笛声或木地板上的脚步声。EnCodec(改进版)是一个基于神经网络的音频压缩解码器,能够帮助用户生成人工痕迹更少、更高质量的音乐,还能对音频文件进行无损压缩。这些模型都已经开源,研究人员和从业者可以用自己的数据集训练自己的模型。
Meta表示,该工具是为了填补生成式AI在音频方面的空白而开发。虽然生成式AI在图像、视频和文本方面已经取得了很多进展,但音频方面还有很大的提升空间。生成高保真音频是一项挑战,因为它需要对不同尺度的复杂信号和模式进行建模。音乐尤其难以生成,因为音乐不仅要考虑局部音符组合,还要考虑音乐编排和多种乐器的协调。
Meta称,AudioCraft系列模型能够生成高质量、长期一致性的高质量音频,并且易于使用。它简化了音频生成模型的设计,使其更加简洁高效,并为用户提供了完整的方法,让他们可以玩转Meta在过去几年中研发的模型。虽然团队为了让模型简单而付出了很多努力,但他们同样致力于确保AudioCraft能够支持最先进的技术。用户可以轻松地扩展该模型并将模型适应于他们的研究用例。
Meta指出,AudioCraft适用于音乐、声音、音频文件的压缩和生成。因为它很容易构建和重用,所以想要构建更好的声音生成器、压缩算法或音乐生成器的人可以在同一个代码库中完成这一切,并可在其他人所做的基础上进行构建。