浅谈AI音乐开发及应用
各位朋友们,大家好,首先做个自我介绍,我是明铭,从事游戏音频开发已经有14年了,前后参与了40余款游戏的音频开发工作,与此同时我也是一名AI音频开发方面的狂热爱好者,在这个新兴领域探索了4年有余,目前在负责一款AI音乐产品的开发工作。它是一款集AI一键写歌,AI编曲,AI作词为一体的人工智能音乐创作工具,有别与其他市面的AI音乐产品,它更贴合华语流行音乐生产。今天我想基于这个产品的一些开发心得,和大家一起分享些对AI音乐的看法和相关开发思路。在正式进入主题之前我想为大家简单演示下生成过程,我选了其中一小部分给大家看看:
好,刚刚我们看到了整个音乐和歌词的简要生成过程,也听到了相应的音频,接下来我们直接进入主题,首先要简单和大家回顾下的是:
国内外AI音乐发展的主要标志性事件
从时间上来看,业界比较认可的AI音乐开始是在1957年由计算机生成的《伊利亚克组曲》,之后经过了很长时间的停滞终于在1993年,又出现了运用神经网络学习模式进行和声生成的Musact系统,可好景不长,在这之后AI音乐又进入了20多年的相对静默期,技术一直没能有大的突破。直到时间来到2015年,从这年开始到2021年,才真正算得上AI音乐技术的集中爆发期,各种相关公司和作品层出不穷,比较有代表性的是:
2015年AI音乐初创公司Juckdeck在英国成立。
2016年 google deepmind 出现wavenet这种技术,它可以用来创作音乐。
2016年 AIVA在卢森堡成立,这也是到目前为止最具影响力的AI音乐公司之一。
2017年 AI音乐初创公司 Amper Music成立
2017年 AI音乐专辑《I AM AI》发行
2017年 国内AI音乐初创公司DeepMusic成立。
2018年 国内AI音乐初创公司 不亦乐乎在杭州成立。
2018年 微软小冰具备作词作曲能力。
2019年 Juckdeck被字节跳动收购。
2019年 中央音乐学院开始招收音乐人工智能博士。
2019年 小冰歌声合成达到一个新的台阶,具备不错的实用性。
2020年 小冰发布《hope》。
2020年 网易投资AIVA。
2020年 网易发布全链路AI歌曲《醒来》。
以上这些并不能完全包含AI音乐整个发展历程,在了解完这些主要节点事件后我们需要为接下来的分享讨论预设一个前提,因为如果没有这个预设前提存在,接来来的讨论将会没有边界,那么是什么样的一个前提呢?即:
当前计算机发展水平在短时间内不会出现强人工智能的存在。
很多人一提到人工智能,首先想到的就是非常科幻的场景,计算机能自主思考,这显然是超出了目前计算机发展水平的,我们不排除以后科技发展水平能到达这一步,但需要的时间不会太短。OK,还是回到AI音乐上来,我们如何开始AI音乐开发的第一步呢?
在我看来,第一步是需要了解
AI音乐的本质是什么?
AI音乐的本质是通过各种算法对音乐数据进行分析与学习,形成审美相对确定的风格模型,然后基于用户的输入在选定的风格模型中进行内容生成。
方向选择
了解完这点后接下来我们要去分析下实际的需求点,从需求点上明确输入输出方式,进而确定研发的方向。先不说远了,以我国目前音乐市场的现状来看,不管是短视频,媒体音乐平台,还是在线K歌平台都是以歌曲为主要生产资料,再辅以配乐。也就是说摆在面前有两个方向:一是歌曲向!二是配乐向!
歌曲向是以解决歌曲快速生产为目的,以速度,调性,节拍,和弦,段落为主要输入,如果要更完整些还需要歌词生成,旋律生成,歌声合成同步进行配合;
配乐向则是以解决配乐的快速生产为目的,以速度,调性,节拍,时长,风格,情绪为主要输入。
两者有相同的地方,也有很多不同,歌曲向强调细节匹配,歌曲向更多强调整体的匹配,开发者需要根据自己想解决什么需求来选定自己的开发方向,千万别原本想解决歌曲生产却按照解决配乐的思路去搞开发,那样就南辕北辙了。
这两种思路下产品输入的交互主要有哪些区别的我给大家切了个图
歌曲向:
配乐向:
选择好方向后我们接下来对AI音乐的开发展开来讲一下,因为我本人是从事歌曲向AI音乐的开发,因此接下来的分享我会按照歌曲的思路来讲解。首先是:
功能分类及相关技术
歌曲向的AI音乐主要分这么四块 AI作词,AI作曲,AI编曲,AI歌声,也就是通常意义上的词曲编唱。
每一个环节都相对独立而又彼此关联,需要用到的技术点也不尽相同。
AI作词主要用到基于预训练的GPT-2语言模型,基于端到端的生成模型框架;
AI作曲主要用到基于乐理规则的生成模型和机器学习;
AI编曲主要用到基于乐理规则的生成模型;
AI歌声主要用到端到端声学模型+神经声码器。
显然靠单一的算法类型是不可能完成AI音乐的整体功能开发的。这里我引用我们团队的一段共识来说明下这个问题:
任何音乐作品生成系统,都无法单纯用机器学习来完成,每种算法都有其优势也有其局限性。
对于AI音乐开发来说,我们需要根据不同环节的特性选用不同的算法来处理。对于机器学习来说,其一般工作原理是:首先会有一个目标函数用于在运行时将用户的输入转换为输出,但这个函数需要很多参数才可以正常工作,这些参数一般被打包在一起叫做一个模型。然后会有一个训练集,这个训练集包含若干输入输出以及标注信息,会有一套算法规则用于将一条标注过的训练数据转化为模型里的一些参数(深度学习甚至不需要人去写出这个规则,深度神经网络系统内部就可以完成模型信息的隐式提取),整个训练集跑完之后,产生的模型就可以对用户的输入产生相应的输出了。
这个过程看似很理想,但是它只能用于满足三个要求的场景:
1. 对输出结果的可解释性没有要求或要求不高。
2. 期望输出结果的特征无限接近训练集。
3. 已有或较容易获得大量的用于训练单一模型的标注数据。
很多场景,比如语音合成、歌声合成、翻译系统、下棋程序等都满足这三个要求,因此机器学习在这些场景中工作得很好。
但是因为音乐作品普遍带有:风格倾向、审美倾向、以及个性化的特点与需求,这就会对系统的可解释性、以及可控性产生硬性的要求。又因为音乐作品对独创性,排他性的要求,导致系统的输出结果不能跟训练集过于接近。同时音乐作品通常都是由音乐家完成的,而每个音乐家的产出都有很大差异,如果用机器学习方法,一个模型通常也是只能针对一个或审美接近的一组音乐家,而这样一来,可用于训练单一模型的存量数据就太少了,而获得足够增量数据也会因为音乐家的生产单价高,周期长,而让成本变得不可接受。
因此,因为音乐作品这样的一些特点,导致任何单纯使用机器学习算法来全盘解决音乐作品生成问题的尝试大概率都是要走弯路的。
那么如何解决机器学习不擅长的那部分音乐内容的生成呢?
对于编曲和作曲来说,方法就是将乐理规则化(专家系统),再配合对现存符合审美标准的有限数据做人工分析之后,进行建模,最终实现一套基于乐理规则和编曲习惯的生成式模型,也就是上面AI音乐本质里提到的审美相对固定的模型。
人工智能的定义是很广泛的(同时也比较模糊,且有一定的争议),不是只有用了神经网络/深度神经网络算法的系统才能叫人工智能,人工智能的定义里面并没有限制具体算法的使用,可以理解为就是某种定义下的自动化。我们的开发要以解决真实需求为主导,灵活采用多种技术手段来助力目标实现,技术本身没有好坏,只有适不适合,切勿陷入技术的自嗨,推导出一些莫名其妙的伪需求。
聊完分类和常用技术类型我们来看看另一个对开发非常关键,也是制约AI音乐发展的最主要因素:
团队构建
AI音乐是一个算法和艺术的交叉领域,面临的困难错综复杂,既有主观的,也有客观的,除了技术,数据,资金以外,最重要的就是人才的稀缺。
不管是算法人员还是音乐制作人员,当他们要参与AI音乐开发中来的时候,最好是具备复合能力的人才。
算法人员除了相关编程能力外最好要精通乐理,编过曲,写过歌,最次也需要了解音乐基本制作技巧,会一门和声乐器;
音乐制作人员须得精通乐理,精于制作,最好是常年战斗在一线制作的人员,对主流音乐风格有很强的把控能力,清楚了解各种编曲作曲作词演唱的惯用手法。
以上这些要求看上去非常之高,但想在AI音乐开发上有所作为这又是不得不去面对的。那么接下来有个问题就显现出来了,建立这样一个AI音乐开发团队的土壤存在于哪里?是AI科技公司?音乐院校?还是传统互联网公司?我想以上这些组织可能都差一些要素,要么缺技术人员,要么缺音乐人员,亦或技术储备不足,而相对比较好的是流媒体音乐平台,但我个人认为最有孕育AI音乐潜力的是游戏公司。理由很简单:游戏是一个集各种引擎技术,AI技术,美术,音乐等艺术表现形式为一体的综合载体,在音乐和算法人员储备以及基础技术储备上均有相当基础,需要注意的是游戏公司仅仅只是一个有发芽可能的土壤而已,相应的算法人员可以从技术音频转过来,这个岗位近些年大一点的游戏公司都有配备;音乐制作人员相对充沛,可以从游戏音频部门抽调,游戏配乐常年会和项目程序打交道,基本具备了程序化思维,这也很好的解决了音乐人员不理解程序想法的问题。除此之外,歌声合成和歌词生成则可以从游戏AI部门进行人员选拔,NLP和语音合成是游戏AI常见的功能,大一点的公司也都会配备这些人员,综上这些我们基本可以配齐开发一个词曲编唱为一体的AI音乐开发团队。这是我们团队的一些经验,有它特定的环境限制,当然路子不只有这么一条,在此仅和大家做些分享,总而言之:
要对AI音乐进行有效开发,最理想的状态是在同一个组织架构下同时具备音频算法人员和音乐制作人员。
困难与挑战
在AI音乐的开发过程种我们会遇到各种各样的困难和挑战,其中有这么几个方面我觉得是比较重要的:
1 如何解决实用性问题?
首先在思路上,开发人员要避免技术的自嗨,切勿从技术的突破去推导应用场景。一切要从行业实际需求出发。想起清楚用户在音乐创作上的实际需求是什么,然后根据这个实际需求来选定合适的技术路线,寻找方法解决问题。
其次是审美如何解决 ?要解决这个问题就要先搞清涉及审美的要素有哪些?在我看来一首音乐作品的审美主要由两方面来决定,即定量和变量。
定量---包括但不限于乐器音色,人声音色,混音方式,段落乐器搭配,演奏织体等;
变量----主要是人输入的部分,即作品用什么方式和人发生关联,包括但不限于速度,和弦,节拍,调性,段落,歌词等。
我们以编曲为例,一个编曲作品之所以属于这个制作人是因为他定义了哪些内容呢?从定量来看,乐器,音色,演奏织体,段落乐器配比,混音方式,这些都是影响审美的定量,它们决定了这首编曲最基础的审美问题,想象一下,同样是木吉他编曲,音色稍稍变化一下,演奏技法变化下,又是一个全新的感受,在制作认知里,我们是可以认为这是一首全新编曲的。而变量又有哪些呢?速度,和弦,节拍,调性,段落,这些变量决定了这首作品为何属于用户,一首歌曲最基础的审美也是由这五要素共同决定的,其实才是歌词,旋律,人声。
基于这些影响审美的因素,我认为AI音乐的生产模型应该是和市面上歌曲一样,以首位单位,而不是以一个大风格来生产,因为这样不管是从解决实际问题,还是风格模型生产的成本及效率来说都是更好的选择。
2 数据获取
主要有两方面成本,质量。
从获取途径来说有自产,外购,外部合作三种主要方式。自产相对门槛比较高,需要有资金和人员的储备,但数据和标注的质量以及标准相对可控;外购成本比较高,而且数据质量和标注规则不方便根据算法再次调整;外部合作则不失为一种性价比比较高的方式,但前提是需要有专业的音频人员参与其中把控生产质量。我们团队是采用了自产+外部合作的结合方式,实践下来效果还不错。
成本的控制
技术选型影响比较大。我还是以编曲为例:都是解决编曲生产问题,神经网络和基于乐理的编曲算法对源数据的需求量差异是非常大的,神经网络生产一个风格的编曲模型至少需要几百到上千首高度标注的编曲MIDI数据,这些数据如果是在传统管弦乐上数据还相对容易获取,但在流行音乐上是很难获得这样的高质量标注数据的,自行生产也需要几十万人民币和1-2个月时间,而基于乐理规则的编曲算法只需要一首编曲数据即可生产一个模型,成本几千块。
资源和人脉 发动歌手和编曲师在各自领域寻找,而不是由技术人员去寻找,从业者更能找到质高价低的资源。
数据质量的把控 涉及两个方面,数据的技术标准质量和音频数据审美质量。
专业音频人员的深入参与至关重要,这也是团队构成里提到技术人员和音频人员必须同在一个团队里紧密合作的重要原因,以歌声合成数据为例,有时一个气口,一点杂音都会影响到最终合成的质量,这些必须由专业音频人员去处理,标注。
需要探讨和探索的
1 与音乐行业的关系,我认为总体来说是非取代,非零和而是长期和谐共存,与人类智慧结合,但不排除部分取代。
AI音乐的到来,可以看作是给了一个支点,一方面极大降低了制作门槛,另一方面极大提高了行业准入门槛。
作为音频从业者,我们需要去尽快适应,寻找到新的定位,在音乐作品创作中加强自己不可取代的部分---比如对审美的定义。
2 AI产出的版权
我国《著作权法》对于著作权的定义,著作权是著作权法赋予民事主体对作品及相关客体所享有的权利。但AI产出版权的界定却是滞后的。法律方面不是我的专业,这里也不过多言语,我仅从产品角度向大家分享这么一种可能性:用户用AI音乐产品生成的内容版权全部归用户。
这么做有以下三个好处:
一 刺激用户生产积极性;
二 用户手上有了大量版权属于他的歌曲才会刺激变现需求;
三 为产品隔离版权界定的潜在法律风险。
那么为何产品方不宜寻求版权呢?原因有四:
一 对AI和用户生产内容的确权难度大,对人力物力消耗是个坑;
二 产出内容会动版权音乐公司和部分音乐人的蛋糕,容易引发大量法律纠纷;
三 很多用户喜欢薅羊毛,得让用户有占到便宜的感觉。产品方主张版权利益不利于用户参与积极性;
四 当前对于歌曲版权的主张,收益和风险及投入不成正比,需要跳出这个版权获利模式。
3 区块链版权 即时确权和交易版权的可能性
基于区块链技术的歌曲版权确权交易是个非常大的市场,目前很多公司都开始在布局这块,都看到了未来大版权时代的红利,国家也在大力倡导。在AI音乐技术的加持下,原创音乐的版权供给端会急速膨胀,用户很容易在短时间内以极低成本生产出大量版权属于个人的可交易的作品,对变现需求有很强的刺激。相较于传统版权确权交易费时费力高成本来说,区块链版权确权交易具有成本低,时效快,不可篡改的特性,同时歌曲版权作为一种兼具实用性和收益性的优质NFT资产,具备相当的交易获利潜力。
举个例子:A创作卖给B,B收购后可立马加价转授权。除了直接交易获利,版权的确权收益也是产品平台和版权局未来一个重要营收点。它的难点在于刚开始的时候买方市场的建立,需要有大量资金介入,营造出可以靠出售版权快速获利的事实。
4应用场景
关于AI音乐的应用场景其实还是比较明确的,主要在这么几块:
短视频 ---BGM生产
虚拟偶像 --专属歌曲定制,解决虚拟偶像内容产出的问题
音乐教育---高度交互化的音乐教育产品。
音乐创作---全民音乐创作的时代
音乐游戏--- 全新品类的音游,跳出打节奏的框框。
5机遇与可能
对于行业 从趋势来讲AI介入音乐是必然的方向,不会因为一些反对的声音而停止。其次,人人都能理由AI工具创作音乐将改变音乐行业底层渠道能力,带来大量歌曲增量。
对于个人 普通音乐爱好者 广泛地拥有了用音乐创作表达内心地权利;对于词曲创作者,提升效率,给与灵感,单位时间创作更多作品,补齐技能短板;对于编曲人和歌手,投入数据生产,变相拥有版权收益;对于视频创作者,更简便高效地获得制作视频所需的版权音乐。
6 我们如何参与到AI音乐行业中?
我想大致有以下这5个方面
数据生产AI音乐的生成需要有大量的源数据,包括歌声数据,编曲数据,旋律歌词数据的生产和标注。这是目前行业从业者相对容易可以进入的领域,也是价值非常高的一块,AI音乐的审美将由将由这些数据来去定义。
技术开发如果对AI音乐生成的技术有一定想法并拥有一定开发能力的人则可以惨与到歌声合成,AI作曲作词,AI编曲技术的开发和标准制定。
内容生产随着AI带来的音乐制作门槛降低,广大音乐爱好者和专业音乐人可以利用AI音乐工具进行音乐创作,帮助自己实现音乐想法落地和提高生产效率。
音乐版权交易AI音乐技术的帮助下,歌曲资源供给极大膨胀,同时区块链加持下,每个人都可以更便捷高效地参与到版权交易中,进行歌曲版权NFT资产化,并交易获利。
音乐内容的消费人们可以通过各种终端实时生成并聆听符合当下环境,场景的专属音乐。
先创作音乐再去聆听的方式将有可能变为你需要听什么马上给你即时创作音乐。
以上便是我对AI音乐一点浅薄的认知和经验分享,AI音乐发展了这么多年,也喊了这么多年,如今刚刚才迈出实用化落地的那一小步,前路漫漫,其修远兮。希望很大,困难很多,愿与各位共同探索这一美妙而又无限可能的领域。也祝愿AI音乐未来的路子越走越宽,谢谢大家。
AI孙燕姿翻唱视频走红B站 图片来源:B站截图
《每日经济新闻》了解到,AI孙燕姿翻唱视频批量生产的背后,需要投入的成本并不复杂。时间、基本的软件操作、显卡的算力、前期的数据收集以及下载训练所用的歌曲,是做出一条AI孙燕姿翻唱视频所需的基本成本。
主要是时间成本。李远称,如果有一定的计算机基础,对常用的软件操作比较了解,可能两三天或者不超过一周就可以做出来。
据他介绍,自己的这条教学前前后后大概花了一周时间,时间主要花费在前期的训练以及测试上了。收集训练用的数据特别重要,这一步做不好,后面花再多时间也是白搭。李远估算,除了耗费时间,租用显卡一小时1.66元,按24小时来算,大概是三四十块钱,不能再多了,当然如果你没有音乐平台的会员,下载歌曲时可能需要买会员。
视频火爆背后,李远也注意到大量AI孙燕姿出现后引发的争议和存在的版权风险。他认为,如果视频单纯教学技术其实问题并不大,但自己的视频里有明确提到孙燕姿的内容,还是会有一定的法律风险。
李远观察到,现在大家都在谈论技术的负面影响,但我在评论区也看到有人想在自己变声之前把自己原来的声音留下来;想把去世亲人的声音留下来等,我觉得这些是比较积极的作用。
北京市京师律师事务所创始合伙人、首席公司法律师王光英表示,AI孙燕姿很有可能已构成了对孙燕姿本人姓名权的侵害,如果进一步存在故意误导、混淆或假冒他人的名义以获取利益等行为的,该行为也可能会构成不正当竞争行为。
谁能分到AI音乐的蛋糕?
AI音乐不仅让众多歌手感到危机袭来,许多唱片公司也坐不住了。
我们将毫不犹豫地采取措施来保护我们和我们艺术家的权利。早在今年3月份,音乐行业巨头环球音乐集团便通过邮件敦促包括Spotify和苹果(Apple)在内的流媒体平台,应切断开发者使用其音乐来训练AI的途径,防止人工智能服务从其受版权保护的歌曲中抓取旋律和歌词。
4月,环球音乐继续发表声明:我们对我们的艺术家负有道德和商业责任,因此会努力防止未经授权使用他们音乐此类行为的发生,阻止各个平台摄入侵犯艺术家和其他创作者权利的内容。我们也希望各位合作伙伴能够同样尽力防止他们的服务被用于伤害艺术家的实践中。
技术层面上,GPT5.0目前已经基本‘读完’了人类全部影视作品。这也是环球目前比较急于宣战的原因,一旦AI完全掌握了人类音乐创造力的方法,环球音乐将失去宣战的必要性。独立国际策略研究员陈佳分析称,环球音乐的动作从实际效果上来看已经为时已晚,更多停留在法律层面。实际上AI最早进入全球音乐产业链已经是二十年前的事情了,洛天依作为一个Al虚拟角色就有不少流行的音乐作品,只不过前期对IP处于保护期内的大类作品‘下手’比较轻而已。
图片来源:音乐平台截图
据《金融时报》报道,全球最大的音频流媒体业务平台Spotify已经删除了平台上由AI音乐初创公司Boomy所上传的数万首歌曲,但理由是流量欺诈。
与传统唱片公司的抵制态度不同,不少平台方则在大力推广AI应用。谷歌在5月推出新型AI工具MusicLM,它可以根据文本描述生成音乐,据悉,MusicLM是运用了28万小时的音乐数据训练出来的。苹果则在2022年2月8日收购了一家名为AI Music的人工智能音乐初创公司。
国内音乐平台也着手布局相关技术。腾讯音乐先后推出虚拟偶像、AI音乐作画等相关业务,在今年一季度财报电话会上,腾讯音乐CEO梁柱表示,腾讯音乐探索了大语言模型在AIGC领域落地的多元应用,推出了TME Studio音乐创作助手与音色制作人两款产品,协助音乐人在作词、作曲、音乐内容分析与剪辑等制作环节的效率提升。
腾讯音乐首位AI音乐人小琴 图片来源:音乐平台截图
网易CEO丁磊曾在2022年财报电话会上表示,2023年,网易云音乐将继续重金投入原创音乐,并将通过AI与音乐结合的方式,探索创新增值服务。
2022年,网易云音乐投资了AI音乐公司AIVA的同时,还推出一站式音乐创作平台网易天音,10秒就能生成一首拜年曲。网易严选前不久在七周年之际发布了一首AI主题曲《如期》,就是由网易天音提供AI技术辅助支持。
值得注意的是,2022年8月29日以来,网易天音官方微博号、B站账号再无更新,微信公众号内容更新则截至2022年9月26日。
未来淘汰音乐人的不是AI 是那些掌握了AI的音乐人
AI的出现为处于瓶颈期的音乐平台带来了新的增长机会。DCCI互联网研究院院长刘兴亮认为,技术的发展和创新可以为音乐平台带来诸多优势,从而改善用户体验和提高平台竞争力。
对音乐人和整个产业链来说,陈佳认为,在新一轮AI技术加持之下,顶级音乐制作人能拥有更广阔的资源、更精准的调教、更细致的听众偏好分析以及更活跃的创作思维支持。我们已经在全球流行音乐市场见证了,不少由AI和顶级音乐创作人之间双剑合璧的成功案例,同时也见证了AI技术在大众音乐普及和卡拉OK声效领域的高速成长,这些都带给更多消费者更具审美感、更有性价比的产品和服务。但同时其表示,AI技术的出现将导致隐私、虚假信息等问题。
AI科技的本质是造福人类,为人类提供服务,AI的本质是基于现有人类智慧的积累和传承,是借助人类的大数据和深度机器学习等技术发展起来的,但在AI科技火速发展的今天,人类的可替代性愈来愈强,法律如何在此种环境下与时俱进,值得我们每一个法律人深思,期冀在遵从伦理、人本主义、法治理念的基础上,国家能够进一步完善人工智能AI科技等相关立法,使自然人的合法权益得到更好的保护。王光英律师表示。
不足50元就能做一个“AI孙燕姿”,谁分到了AI音乐的蛋糕?
要说当下最火爆的社交密码,AI孙燕姿无疑是有一席之地。