曾经熟悉的声音还能当真吗?AI语音克隆技术引发争议
【今日视点】
◎本报 张佳欣
1970年4月,披头士乐队解散,数百万歌迷们伤心不已。50多年后的今天,人工智能(AI)正在将逝去的记忆复活,重新创作和重新想象披头士乐队的演唱。
AI声音模拟得如此逼真,也引发了一系列伦理和法律问题,甚至导致了电信诈骗的出现。据澳大利亚Insider Guides网站报道,最新报告显示,2022年澳大利亚人因诈骗损失了创纪录的31亿美元。
声音克隆易被骗子利用
在电信诈骗中,骗子用AI软件扫描语音记录并复制,准确率高达99%。他们可以从社交媒体的视频和其他上传音频中提取片段,将其输入AI软件,重现声音并说出不同短语或句子。
澳大利亚悉尼科技大学电气与数据工程学院副教授迪普·阮晋勇表示,AI模型可以将相对较短的语音片段和字符串片段重建为连贯的句子。有些模型和算法只需一分钟甚至更短时间,就能合成一段相当高质量的克隆声音。
阮晋勇表示,先进的AI模型和算法可以很好地合成声音,以至于普通人很难区分克隆的声音和真实的声音。
美国《时代》周刊报道称,几个月前,亚利桑那州的一个家庭以为接到了绑架电话,电话里的声音听起来与亲人的声音别无二致,结果发现这是一个完全由AI制造的骗局。越来越多骗局的出现让人们担心AI可能成为威胁人们的技术,而且这种技术很容易获得。
AI让普通人变歌星
AI声音克隆也扩展到音乐领域,人们用该技术创作出与明星的声音完全相同的歌曲。最近,一位名叫Dae Lims的创作者在社交媒体发布了几首用AI创作的歌曲。
好听哭了!这太美了!一位听众在《New》歌曲下评论道,这首歌是保罗·麦卡特尼2013年的单曲,它在AI的帮助下被重新制作,并由麦卡特尼的朋友、1980年已故的约翰·列侬演唱其中的部分桥段。
类似的例子还有今年4月,国外网友Ghostwriter977用知名说唱歌手Drake和R&B歌手The Weeknd的声音对AI进行训练,模仿两人音乐风格生成了合唱歌曲《我袖子上的心》。这首歌一经发布,便在社交媒体疯传。
我们真的进入了一个新时代。一位听众在评论中回应道,甚至无法分辨什么是合法的,什么是假的。
作曲家、美国斯坦福大学音乐与声学计算机研究中心助理教授帕特里夏·亚历桑德里尼表示,最近大量的AI曲目代表了一项技术的成熟,该技术一直在呈指数级发展,但在过去十年中基本不为公众所关注。这意味着,现在人们可以对AI进行任何方面的训练,但我们不能指望它会取代人类创造艺术和文化的丰富历史。
给音乐行业带来威胁
对于音乐行业来说,AI克隆声音生成音乐的影响是巨大的。随着技术进步,在不久的将来,人们可以利用某款软件很容易地将自己的歌声转换为自己最喜欢的歌手的声音。
事实已经证明,AI对版权界产生了巨大影响。
在《我袖子上的心》案例中,作为两位歌手签约的唱片公司,环球音乐集团(UMG)很快提出了版权主张,并要求从流媒体服务中撤下这首歌曲。
纽约的音乐版权律师马克·奥斯特罗则表示,AI生成的音乐是一个灰色地带。
版权如何界定?什么程度的复制才是合理使用?又怎么阻止其不合理性使用的扩大化?
美国国家音乐出版商协会(NMPA)主席兼首席执行官大卫·伊斯雷特表示,应允许词曲作者和音乐出版商更好地保护他们的作品免受未经授权的使用,这在AI时代将受到前所未有的挑战。
(科技日报)
按照顺序主要有语音识别、对话理解、对话管理、对话生成和语音合成五个步骤。
语音识别的输入是语音,输出是文本;对话理解的根据用户的自然语言文本以及其他一些特征做多模态的用户意图识别;对话管理根据用户意图做对话状态追踪,然后确定对话策略;对话生成模块可以用问答模版/半检索/纯生成等做法进行话术生成和拼接;以及最后用 KAN TTS 和传统 TTS 并列进行的语音合成。其中 ASR 和 TTS 是由达摩院智能语音实验室提供技术,与阿里小蜜团队一起合作完成的。
机器之心:语音识别模块的效果有哪些衡量指标吗?
目前 ASR 在特定垂类的准确率可以做到 95% 以上。之所以强调垂类,是由于声学模型将声音翻译成特定的音节,会受到地域,特定领域的专业术语等影响,语言模型也会受到专业术语的影响。语音识别中负责解决同音字问题的语言模型需要学习在真实场景里能够经常遇到的词的组合。