您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

浅谈AI音乐开发及应用

1987web2023-08-30人工智能AI114

各位朋友们，大家好，首先做个自我介绍，我是明铭，从事游戏音频开发已经有14年了，前后参与了40余款游戏的音频开发工作，与此同时我也是一名AI音频开发方面的狂热爱好者，在这个新兴领域探索了4年有余，目前

各位朋友们，大家好，首先做个自我介绍，我是明铭，从事游戏音频开发已经有14年了，前后参与了40余款游戏的音频开发工作，与此同时我也是一名AI音频开发方面的狂热爱好者，在这个新兴领域探索了4年有余，目前在负责一款AI音乐产品的开发工作。它是一款集AI一键写歌，AI编曲，AI作词为一体的人工智能音乐创作工具，有别与其他市面的AI音乐产品，它更贴合华语流行音乐生产。今天我想基于这个产品的一些开发心得，和大家一起分享些对AI音乐的看法和相关开发思路。在正式进入主题之前我想为大家简单演示下生成过程，我选了其中一小部分给大家看看：

https://music.163.com/song?id=1854173294&userid=118489601music.163.com/song?id=1854173294&userid=118489601

https://music.163.com/song?id=1866441071&userid=118489601music.163.com/song?id=1866441071&userid=118489601

https://music.163.com/song?id=1803323186&userid=118489601music.163.com/song?id=1803323186&userid=118489601

好，刚刚我们看到了整个音乐和歌词的简要生成过程，也听到了相应的音频，接下来我们直接进入主题，首先要简单和大家回顾下的是：

国内外AI音乐发展的主要标志性事件

从时间上来看，业界比较认可的AI音乐开始是在1957年由计算机生成的《伊利亚克组曲》，之后经过了很长时间的停滞终于在1993年，又出现了运用神经网络学习模式进行和声生成的Musact系统，可好景不长，在这之后AI音乐又进入了20多年的相对静默期，技术一直没能有大的突破。直到时间来到2015年，从这年开始到2021年，才真正算得上AI音乐技术的集中爆发期，各种相关公司和作品层出不穷，比较有代表性的是：

2015年AI音乐初创公司Juckdeck在英国成立。

2016年 google deepmind 出现wavenet这种技术，它可以用来创作音乐。

2016年 AIVA在卢森堡成立，这也是到目前为止最具影响力的AI音乐公司之一。

2017年 AI音乐初创公司 Amper Music成立

2017年 AI音乐专辑《I AM AI》发行

2017年国内AI音乐初创公司DeepMusic成立。

2018年国内AI音乐初创公司不亦乐乎在杭州成立。

2018年微软小冰具备作词作曲能力。

2019年 Juckdeck被字节跳动收购。

2019年中央音乐学院开始招收音乐人工智能博士。

2019年小冰歌声合成达到一个新的台阶，具备不错的实用性。

2020年小冰发布《hope》。

2020年网易投资AIVA。

2020年网易发布全链路AI歌曲《醒来》。

以上这些并不能完全包含AI音乐整个发展历程，在了解完这些主要节点事件后我们需要为接下来的分享讨论预设一个前提，因为如果没有这个预设前提存在，接来来的讨论将会没有边界，那么是什么样的一个前提呢？即：

当前计算机发展水平在短时间内不会出现强人工智能的存在。

很多人一提到人工智能，首先想到的就是非常科幻的场景，计算机能自主思考，这显然是超出了目前计算机发展水平的，我们不排除以后科技发展水平能到达这一步，但需要的时间不会太短。OK，还是回到AI音乐上来，我们如何开始AI音乐开发的第一步呢？

在我看来，第一步是需要了解

AI音乐的本质是什么？

AI音乐的本质是通过各种算法对音乐数据进行分析与学习，形成审美相对确定的风格模型，然后基于用户的输入在选定的风格模型中进行内容生成。

方向选择

了解完这点后接下来我们要去分析下实际的需求点，从需求点上明确输入输出方式，进而确定研发的方向。先不说远了，以我国目前音乐市场的现状来看，不管是短视频，媒体音乐平台，还是在线K歌平台都是以歌曲为主要生产资料，再辅以配乐。也就是说摆在面前有两个方向：一是歌曲向！二是配乐向！

歌曲向是以解决歌曲快速生产为目的，以速度，调性，节拍，和弦，段落为主要输入，如果要更完整些还需要歌词生成，旋律生成，歌声合成同步进行配合；

配乐向则是以解决配乐的快速生产为目的，以速度，调性，节拍，时长，风格，情绪为主要输入。

两者有相同的地方，也有很多不同，歌曲向强调细节匹配，歌曲向更多强调整体的匹配，开发者需要根据自己想解决什么需求来选定自己的开发方向，千万别原本想解决歌曲生产却按照解决配乐的思路去搞开发，那样就南辕北辙了。

这两种思路下产品输入的交互主要有哪些区别的我给大家切了个图

歌曲向：

配乐向：

选择好方向后我们接下来对AI音乐的开发展开来讲一下，因为我本人是从事歌曲向AI音乐的开发，因此接下来的分享我会按照歌曲的思路来讲解。首先是：

功能分类及相关技术

歌曲向的AI音乐主要分这么四块 AI作词，AI作曲，AI编曲，AI歌声，也就是通常意义上的词曲编唱。

每一个环节都相对独立而又彼此关联，需要用到的技术点也不尽相同。

AI作词主要用到基于预训练的GPT-2语言模型，基于端到端的生成模型框架；

AI作曲主要用到基于乐理规则的生成模型和机器学习；

AI编曲主要用到基于乐理规则的生成模型；

AI歌声主要用到端到端声学模型+神经声码器。

显然靠单一的算法类型是不可能完成AI音乐的整体功能开发的。这里我引用我们团队的一段共识来说明下这个问题：

任何音乐作品生成系统，都无法单纯用机器学习来完成，每种算法都有其优势也有其局限性。

对于AI音乐开发来说，我们需要根据不同环节的特性选用不同的算法来处理。对于机器学习来说，其一般工作原理是：首先会有一个目标函数用于在运行时将用户的输入转换为输出，但这个函数需要很多参数才可以正常工作，这些参数一般被打包在一起叫做一个模型。然后会有一个训练集，这个训练集包含若干输入输出以及标注信息，会有一套算法规则用于将一条标注过的训练数据转化为模型里的一些参数（深度学习甚至不需要人去写出这个规则，深度神经网络系统内部就可以完成模型信息的隐式提取），整个训练集跑完之后，产生的模型就可以对用户的输入产生相应的输出了。

这个过程看似很理想，但是它只能用于满足三个要求的场景：

1. 对输出结果的可解释性没有要求或要求不高。

2. 期望输出结果的特征无限接近训练集。

3. 已有或较容易获得大量的用于训练单一模型的标注数据。

很多场景，比如语音合成、歌声合成、翻译系统、下棋程序等都满足这三个要求，因此机器学习在这些场景中工作得很好。

但是因为音乐作品普遍带有：风格倾向、审美倾向、以及个性化的特点与需求，这就会对系统的可解释性、以及可控性产生硬性的要求。又因为音乐作品对独创性，排他性的要求，导致系统的输出结果不能跟训练集过于接近。同时音乐作品通常都是由音乐家完成的，而每个音乐家的产出都有很大差异，如果用机器学习方法，一个模型通常也是只能针对一个或审美接近的一组音乐家，而这样一来，可用于训练单一模型的存量数据就太少了，而获得足够增量数据也会因为音乐家的生产单价高，周期长，而让成本变得不可接受。

因此，因为音乐作品这样的一些特点，导致任何单纯使用机器学习算法来全盘解决音乐作品生成问题的尝试大概率都是要走弯路的。

那么如何解决机器学习不擅长的那部分音乐内容的生成呢？

对于编曲和作曲来说，方法就是将乐理规则化（专家系统），再配合对现存符合审美标准的有限数据做人工分析之后，进行建模，最终实现一套基于乐理规则和编曲习惯的生成式模型，也就是上面AI音乐本质里提到的审美相对固定的模型。

人工智能的定义是很广泛的（同时也比较模糊，且有一定的争议），不是只有用了神经网络/深度神经网络算法的系统才能叫人工智能，人工智能的定义里面并没有限制具体算法的使用，可以理解为就是某种定义下的自动化。我们的开发要以解决真实需求为主导，灵活采用多种技术手段来助力目标实现，技术本身没有好坏，只有适不适合，切勿陷入技术的自嗨，推导出一些莫名其妙的伪需求。

聊完分类和常用技术类型我们来看看另一个对开发非常关键，也是制约AI音乐发展的最主要因素：

团队构建

AI音乐是一个算法和艺术的交叉领域，面临的困难错综复杂，既有主观的，也有客观的，除了技术，数据，资金以外，最重要的就是人才的稀缺。

不管是算法人员还是音乐制作人员，当他们要参与AI音乐开发中来的时候，最好是具备复合能力的人才。

算法人员除了相关编程能力外最好要精通乐理，编过曲，写过歌，最次也需要了解音乐基本制作技巧，会一门和声乐器；

音乐制作人员须得精通乐理，精于制作，最好是常年战斗在一线制作的人员，对主流音乐风格有很强的把控能力，清楚了解各种编曲作曲作词演唱的惯用手法。

以上这些要求看上去非常之高，但想在AI音乐开发上有所作为这又是不得不去面对的。那么接下来有个问题就显现出来了，建立这样一个AI音乐开发团队的土壤存在于哪里？是AI科技公司？音乐院校？还是传统互联网公司？我想以上这些组织可能都差一些要素，要么缺技术人员，要么缺音乐人员，亦或技术储备不足，而相对比较好的是流媒体音乐平台，但我个人认为最有孕育AI音乐潜力的是游戏公司。理由很简单：游戏是一个集各种引擎技术，AI技术，美术，音乐等艺术表现形式为一体的综合载体，在音乐和算法人员储备以及基础技术储备上均有相当基础，需要注意的是游戏公司仅仅只是一个有发芽可能的土壤而已，相应的算法人员可以从技术音频转过来，这个岗位近些年大一点的游戏公司都有配备；音乐制作人员相对充沛，可以从游戏音频部门抽调，游戏配乐常年会和项目程序打交道，基本具备了程序化思维，这也很好的解决了音乐人员不理解程序想法的问题。除此之外，歌声合成和歌词生成则可以从游戏AI部门进行人员选拔，NLP和语音合成是游戏AI常见的功能，大一点的公司也都会配备这些人员，综上这些我们基本可以配齐开发一个词曲编唱为一体的AI音乐开发团队。这是我们团队的一些经验，有它特定的环境限制，当然路子不只有这么一条，在此仅和大家做些分享，总而言之：

要对AI音乐进行有效开发，最理想的状态是在同一个组织架构下同时具备音频算法人员和音乐制作人员。

困难与挑战

在AI音乐的开发过程种我们会遇到各种各样的困难和挑战，其中有这么几个方面我觉得是比较重要的：

1 如何解决实用性问题？

首先在思路上，开发人员要避免技术的自嗨，切勿从技术的突破去推导应用场景。一切要从行业实际需求出发。想起清楚用户在音乐创作上的实际需求是什么，然后根据这个实际需求来选定合适的技术路线，寻找方法解决问题。

其次是审美如何解决？要解决这个问题就要先搞清涉及审美的要素有哪些？在我看来一首音乐作品的审美主要由两方面来决定，即定量和变量。

定量---包括但不限于乐器音色，人声音色，混音方式，段落乐器搭配，演奏织体等；

变量----主要是人输入的部分，即作品用什么方式和人发生关联，包括但不限于速度，和弦，节拍，调性，段落，歌词等。

我们以编曲为例，一个编曲作品之所以属于这个制作人是因为他定义了哪些内容呢？从定量来看，乐器，音色，演奏织体，段落乐器配比，混音方式，这些都是影响审美的定量，它们决定了这首编曲最基础的审美问题，想象一下，同样是木吉他编曲，音色稍稍变化一下，演奏技法变化下，又是一个全新的感受，在制作认知里，我们是可以认为这是一首全新编曲的。而变量又有哪些呢？速度，和弦，节拍，调性，段落，这些变量决定了这首作品为何属于用户，一首歌曲最基础的审美也是由这五要素共同决定的，其实才是歌词，旋律，人声。

基于这些影响审美的因素，我认为AI音乐的生产模型应该是和市面上歌曲一样，以首位单位，而不是以一个大风格来生产，因为这样不管是从解决实际问题，还是风格模型生产的成本及效率来说都是更好的选择。

2 数据获取

主要有两方面成本，质量。

从获取途径来说有自产，外购，外部合作三种主要方式。自产相对门槛比较高，需要有资金和人员的储备，但数据和标注的质量以及标准相对可控；外购成本比较高，而且数据质量和标注规则不方便根据算法再次调整；外部合作则不失为一种性价比比较高的方式，但前提是需要有专业的音频人员参与其中把控生产质量。我们团队是采用了自产+外部合作的结合方式，实践下来效果还不错。

成本的控制

技术选型影响比较大。我还是以编曲为例：都是解决编曲生产问题，神经网络和基于乐理的编曲算法对源数据的需求量差异是非常大的，神经网络生产一个风格的编曲模型至少需要几百到上千首高度标注的编曲MIDI数据，这些数据如果是在传统管弦乐上数据还相对容易获取，但在流行音乐上是很难获得这样的高质量标注数据的，自行生产也需要几十万人民币和1-2个月时间，而基于乐理规则的编曲算法只需要一首编曲数据即可生产一个模型，成本几千块。

资源和人脉发动歌手和编曲师在各自领域寻找，而不是由技术人员去寻找，从业者更能找到质高价低的资源。

数据质量的把控涉及两个方面，数据的技术标准质量和音频数据审美质量。

专业音频人员的深入参与至关重要，这也是团队构成里提到技术人员和音频人员必须同在一个团队里紧密合作的重要原因，以歌声合成数据为例，有时一个气口，一点杂音都会影响到最终合成的质量，这些必须由专业音频人员去处理，标注。

需要探讨和探索的

1 与音乐行业的关系，我认为总体来说是非取代，非零和而是长期和谐共存，与人类智慧结合，但不排除部分取代。

AI音乐的到来，可以看作是给了一个支点，一方面极大降低了制作门槛，另一方面极大提高了行业准入门槛。

作为音频从业者，我们需要去尽快适应，寻找到新的定位，在音乐作品创作中加强自己不可取代的部分---比如对审美的定义。

2 AI产出的版权

我国《著作权法》对于著作权的定义，著作权是著作权法赋予民事主体对作品及相关客体所享有的权利。但AI产出版权的界定却是滞后的。法律方面不是我的专业，这里也不过多言语，我仅从产品角度向大家分享这么一种可能性：用户用AI音乐产品生成的内容版权全部归用户。

这么做有以下三个好处：

一刺激用户生产积极性；

二用户手上有了大量版权属于他的歌曲才会刺激变现需求；

三为产品隔离版权界定的潜在法律风险。

那么为何产品方不宜寻求版权呢？原因有四：

一对AI和用户生产内容的确权难度大，对人力物力消耗是个坑；

二产出内容会动版权音乐公司和部分音乐人的蛋糕，容易引发大量法律纠纷；

三很多用户喜欢薅羊毛，得让用户有占到便宜的感觉。产品方主张版权利益不利于用户参与积极性；

四当前对于歌曲版权的主张，收益和风险及投入不成正比，需要跳出这个版权获利模式。

3 区块链版权即时确权和交易版权的可能性

基于区块链技术的歌曲版权确权交易是个非常大的市场，目前很多公司都开始在布局这块，都看到了未来大版权时代的红利，国家也在大力倡导。在AI音乐技术的加持下，原创音乐的版权供给端会急速膨胀，用户很容易在短时间内以极低成本生产出大量版权属于个人的可交易的作品，对变现需求有很强的刺激。相较于传统版权确权交易费时费力高成本来说，区块链版权确权交易具有成本低，时效快，不可篡改的特性，同时歌曲版权作为一种兼具实用性和收益性的优质NFT资产，具备相当的交易获利潜力。

举个例子：A创作卖给B，B收购后可立马加价转授权。除了直接交易获利，版权的确权收益也是产品平台和版权局未来一个重要营收点。它的难点在于刚开始的时候买方市场的建立，需要有大量资金介入，营造出可以靠出售版权快速获利的事实。

4应用场景

关于AI音乐的应用场景其实还是比较明确的，主要在这么几块：

短视频 ---BGM生产

虚拟偶像 --专属歌曲定制，解决虚拟偶像内容产出的问题

音乐教育---高度交互化的音乐教育产品。

音乐创作---全民音乐创作的时代

音乐游戏--- 全新品类的音游，跳出打节奏的框框。

5机遇与可能

对于行业从趋势来讲AI介入音乐是必然的方向，不会因为一些反对的声音而停止。其次，人人都能理由AI工具创作音乐将改变音乐行业底层渠道能力，带来大量歌曲增量。

对于个人普通音乐爱好者广泛地拥有了用音乐创作表达内心地权利；对于词曲创作者，提升效率，给与灵感，单位时间创作更多作品，补齐技能短板；对于编曲人和歌手，投入数据生产，变相拥有版权收益；对于视频创作者，更简便高效地获得制作视频所需的版权音乐。

6 我们如何参与到AI音乐行业中？