1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

结合自研AI模型和音乐专业能力,「音律闪动」希望让每个人都能成为专业音乐创作者|ChatAI

1987web2023-08-30人工智能AI127
2023年,第二次人工智能浪潮,因为大模型的"涌现"能力不期而至。

2023年,第二次人工智能浪潮,因为大模型的"涌现"能力不期而至。

事实上,早在2022年年中,Midjourney、Jasper等图片生成、文字生成类AIGC应用就在海外走红。这使得,当全球大佬们还围绕底层大模型进行"军备竞赛"时,建立在模型基础上的AI应用,已在数量和类型上百花齐放。

36氪日前接触到的一家公司「音律闪动」,就是一家以AI写歌为主营业务的公司,当前正在打磨一款名为「歌歌AI写歌」的AI歌曲创作类产品。公司高管告诉36氪,其团队成员长期身处音乐领域,早在上一次AI风靡(即Alphago击败人类)时,就开始探索用AI生成音乐。而2022年,出于对AI写歌领域的持续看好,团队成员聚在一起成立了「音律闪动」,希望做出全球领先的AI写歌类产品。

在全球范围内,AI创作音乐并非新鲜事物——Google、OpenAI,和一些国内外创业公司均有涉猎。但在「音律闪动」团队眼中,这些产品的效果均有不足。

公司COO王枢沛告诉36氪,目前全球范围内的AI创作音乐产品可分为三种技术路线。第一种是符号音乐生成路线。这种方式类似NLP模型的训练——人们需要先标注大量乐谱,再训练,最后形成的产品也是乐谱。但这种方式的弊端在于,生成的结果是乐谱而非音乐,"怎么把乐谱直接变成音乐,目前是一个全球范围内的难题。"王枢沛表示。

另一种是大模型思路,即直接用海量音频训练模型,但这种方式不仅需要高昂资金,生成效果也需要提升。王枢沛解释,音乐里包含的信息量很大,不仅包括歌词、人声和旋律,歌词里还分为各种语义信息,人声里还包括口音、感情表现等,旋律则可能由数十种乐器演奏而成,每种乐器都存在自己的演奏方式。"一首歌里有着庞大的信息量,比训练ChatGPT的难度高很多。"王枢沛表示,当前Google和OpenAI的产品采用这类路线,但在音质、音色、歌词等方面还远不及商用标准。

还有一些初创公司走的是"AI剪辑"路线,就是积累庞大的歌曲素材库,再对这些素材打标,接着用AI进行剪辑。"严格来说,这不属于AI的生成。这些素材被提前准备好,再让AI找出来进行拼接。"王枢沛告诉36氪,在体感上这类歌曲并不流畅,再加上维护庞大的素材库需要花费不少成本,整体投入产出比不高。

对比之下,「音律闪动」团队认为自身产品生成的歌曲已达到商用标准。而且,「歌歌AI写歌」"是唯一能做到整曲生成的产品"。对此王枢沛解释,整曲是说,「歌歌写AI歌」目前已可以生成包括歌词、人声、旋律在内的完整音乐。最终,「歌歌AI写歌」的目标是在数秒内根据用户Prompt生成发行级的华语流行音乐,并覆盖全球所有类型音乐。

他进一步告诉36氪,「歌歌AI写歌」采用的并不是大模型路线,而是由多个专业模型和专家系统组成而成的AI产品。"拿旋律举例,我们会有一个专有模型去做旋律的生成。整体我们有多个专有模型。"他介绍,这样做既保证了效果,算力消耗也不大。再加上,公司此前也积累了不少歌曲的版权,所以训练素材较为丰富。另外,公司还积累了把乐谱转换成音乐的音频算法。王枢沛总结,多种模型、歌曲版权以及对音乐的理解是公司的壁垒。

未来,「音律闪动」的目标用户是全球所有喜欢音乐、唱歌的普通人。公司表示,希望达成全球超过二十亿用户在其平台上进行生成、创作、分享和版权变现的目标。

当前「歌歌AI写歌」正在打磨过程中,计划在接下来的几个月内面世。"我们还会在生成的歌曲整体效果、生成风格的广度上持续打磨。"王枢沛说。

团队方面,公司目前员工人数在20左右。据介绍,CEO龙勇拥有20年音乐制作经验,曾是中国好声音、中国有嘻哈、TME官方合作伙伴,参与制作运营音乐版权总播放量在百亿级别,总版税数亿。COO王枢沛是浙江大学工学/ 美国伯克利音乐学院音乐制作和吉他表演双专业学士,曾任网易AI音乐产品负责人。CTO张文铂曾任阿里巴巴技术总监,是「我要写歌」APP创始人。团队核心成员均来自阿里、网易、字节、Google等音乐AI相关项目。

自从2018年第一个击败人类顶尖围棋选手的人工智能机器人AlphaGo被国内外媒体争相报道后,AI、大数据、人工智能俨然成为当下科技前沿的焦点,对于媒体而言,也成为了一个最常报道和最常见的字眼。人工智能并非一个独立的概念,人工智能涉及的技术研究范围很广,比如大脑模拟、符号处理、统计算法、集成方法、智能模拟、安全验证等等,小到一个芯片导体,大到国家安全系统应用,这些技术都可以根据行业特点有效适配结合。

从1956年正式提出人工智能学科算起,50多年来,取得长足的发展,成为一门广泛的交叉和前沿科学。总的说来,人工智能的目的就是让计算机这台机器能够像人一样思考。

中国从2012年后正式进入互联网+时代,互联网的兴起给这个人口大国带来了新的创新,新的启发和新的机会。之前的BAT,现在的TMD应运而生。教育行业更是风起云涌,最新科技被不断引进在线教育领域,直播、AI大数据、自适应学习、千人千面等,各大教育机构不落窠臼,纷纷推出科技与教育融合的新产品。乔布斯曾说:我站在科技与人文的十字路口,随着人工智能的发展和普及,在线教育开启了人工智能时代。

互联网之所以如此强势,是因为颠覆了一个新的领域,在线教育同样如此,逐渐颠覆着传统教育的上课方式、上课内容、上课环境等等... 假如把传统的学习方式比作是虎,那么人工智能则是给了这只虎一双翅膀,虎在添翼之后会如何施展它的功力,这是值得进一步探讨的。下面我们来看看从技术角度而言,目前比较火的3大类智能教育产品。

1.作业类

例如作业帮,小明今晚做题的时候遇到了不懂的题目,由于在家没有同学帮助,线上求助老师又怕打扰到别人,于是他决定求助作业帮,打开作业帮后开始拍照搜索该题,一番查看后记录下知识点,他发现相同知识点的题目还有一些,于是一个一个去看,顺便将题目摘抄到笔记本上。作业一直被视为增负,无论对学生、老师、家长来说都是这样。作业帮这款产品算是解决了短期的刚需性,但最大的问题是:对学生,会产生一定的依赖性;对学校乃至教育局的管理,会产生一定的威胁。

2.搜题类

例如猿题库、学霸君、等等...运用了图像识别和云端技术,学生遇到难题拍照上传便可知道答案和解题思路。而且这类软件不仅能识别机打题目,手写的题目的识别正确率也越来越准,目前达到了70%以上,大大提高了学生的学习效率。

3. 题库类

例如春藤数学,建立历年高考题库,借助AI大数据分析,运用阿里一样千人千面的技术给学生个性化推送试题。在对照答案的过程,中台会根据学生的错误答案进行学情分析,答案对照完毕后系统会自动生成错误知识点集合,下次做题的时候会优先推送关于这些知识点的针对性练习。这样一来,巧妙的避开了依赖性问题,给学生留有思考的空间,点击注册使用 http://suo.im/5DKNgA

4.语音识别类

语音识别技术在教育上的应用,目前主要用于英语口语测评上,科大讯飞、清睿教育、51Talk开发出的语音测评软件,都能在用户跟读的过程中,很快对发音做出测评并指出发音不准的地方,通过反复的测评训练用户的口语。

5.词典类

例如欧路,Mdict,有道等等

为什么不同赛道中的参与者都在迈向AI?AI+教育已是大势所趋。根据国务院印发的《新一代人工智能发展规划》所述,新一代人工智能正在引发链式突破,推动经济社会各领域从数字化、网络化向智能化加速跃升。值得注意的是,教育领域维度宽广,AI+教育不局限于高频出镜的课后辅导,还包括电子竞技、医学教育、艺术教育等领域。一对一英语培训平台VIPKID、音乐教学平台AI音乐学院、教务教学平台课程帮、早教智能机器人贝芽等,都是目前较为活跃的新兴AI教育平台。

AI智能教育能否突破未来困境?到底是不是众说纷纭的大势所趋?

AI智能教育能否突破未来困境?到底是不是众说纷纭的大势所趋?