1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

仅音频就能克隆完整语音?「AI语音克隆术」原理分析及防御指南!

1987web2023-08-08人工智能AI107

仅需 3 秒语音就能完美复制整个人的口音?在爆火的生成性人工智能GPT 的背景下,技术被滥用的风险,对普通人造成的安全隐患和威胁,绝对不容低估。根据 McAfee 公布的最新报告,基于人工智能(AI)的语音诈骗日益猖獗,在接到诈骗电话的群体中,77% 的人会导致经济损失。

那么,不法分子是如何利用 AI 技术克隆用户语音的?

声纹识别是一项根据语音波形中所蕴涵的说话人信息、自动识别说话人身份的技术。近年来,金融、电信、保险等业务实现线上化普及,生物特征识别技术在身份认证场景中发挥重要作用。与人脸、虹膜、指纹等生物特征相比较,声纹具备成本低、易接受、难仿造等数据优势,现已在金融、公安等领域的登录、支付、业务核身、反诈、远程身份认证等诸多场景中广泛应用,特别是基于电信网络的身份识别,如电话银行、电话炒股、电子购物等。

声纹认证广泛应用的背后,则是规模庞大、乱象丛生的声纹认证市场。市面上 AI 语音克隆的免费工具和收费工具都唾手可得,许多工具只需要基本的经验和专业知识即可使用。其中有工具甚至只需三秒钟语音就足以生成匹配度达85%的克隆语音。克隆语音越准确,网络犯罪分子诱骗受害者交出钱财或采取其他所要求的操作的可能性就越大。

从声纹认证的灰黑产业链来看,黑产团伙通过网络渠道获取到个人的真实信息,并结合 AI 技术手段或工具克隆用户语音,绕过声纹活体检测等校验机制,欺骗声纹识别系统,从而实现账号及信息窃取、电信诈骗等业务违规目的。

01

声纹认证安全漏洞的攻击利用方式

声纹识别技术在某些方面虽然比传统的身份验证技术更加安全,但仍然存在一些安全漏洞和攻击利用方式:

1. 录音攻击:通过录制目标用户的声音,使用录音欺骗声纹识别系统,获得未经授权的访问权限。

2. 语音合成攻击:使用语音合成技术生成与目标用户相似的声音,使用这些声音欺骗声纹识别系统,获得未经授权的访问权限。

3. 声音变形攻击:使用声音变形技术改变自己的声音,欺骗声纹识别系统,获得未经授权的访问权限。

4. 声音重放攻击:使用声音重放技术来重放之前的声音,欺骗声纹识别系统,获得未经授权的访问权限。

5. 语音干扰攻击:使用语音干扰技术干扰声纹识别系统的正常运行,使其无法正确识别声音。

6. 声纹识别算法漏洞:声纹识别算法可能存在漏洞,攻击者可以利用这些漏洞来欺骗声纹识别系统,获得未经授权的访问权限。

7. 数据库攻击:攻击者可以通过攻击声纹识别系统的数据库,获取用户的声纹信息,从而获得未经授权的访问权限。

02

声纹识别系统绕过技术分析

对抗样本攻击

对抗样本攻击(Counter Sample Attacks)是攻击者故意设计,导致算法模型出现错误输入,通过对样本添加特定扰动信息,干扰模型输出指向错误的结果或输出结果异常,在深度学习算法安全对抗领域有广泛应用和一定通用性。

对抗样本攻击是在一段非目标人物的语音上加上扰动信息,生成对抗语音,使系统将对抗语音识别为目标人物,分为白盒攻击、黑盒攻击和半黑盒攻击。攻击者可以访问目标神经网络的所有信息,包括其架构、参数、梯度等。

攻击者可以充分利用网络信息,精心制作对抗样本。下图展示对抗样本攻击的方法:

模型后门攻击

模型后门攻击(Model Backdoor Attack)是指在模型的训练过程中,通过某种方式埋藏后门(Backdoor),然后通过攻击者预先设定的触发器(Trigger)激发。后门未被激发时,被攻击的模型和正常模型表现类似;当模型中埋藏的后门被攻击者指定的触发器激活时,模型的输出变为攻击者预先指定的标签(Target Label),从而达到恶意攻击目的。

后门攻击发生在训练过程非完全受控的很多场景,如使用第三方数据集、使用第三方平台进行训练、直接调用第三方模型等,对模型安全性造成巨大威胁。目前,对训练数据投毒是实现后门攻击最直接、最常见的方法。

样例:

https://github.com/zhaitongqing233/Backdoor-attack-against-speaker-verification

深度伪造攻击

深度伪造攻击(Deep Forgery Attack)指通过各种语音合成、语音转换或高度模仿攻击目标声音的音调、音强、发音习惯等音律特征,对声纹识别系统进行攻击,是一种新型攻击方法,条件限制要求较高,需要利用各种声频处理软件伪造语音,从而模糊声纹识别系统,绕过声纹识别。

完成深度伪造的音频,需要克服复杂因素:

  • 保证音频高质量,几乎没有背景噪声;
  • 分阶段传送音频;
  • 避免面对面交谈,只使用语音留言等手段达到目的。

03

绕过声纹识别的技术防御指南

为了规范人工智能发展,2022年12月,《互联网信息服务深度合成管理规定》正式发布,对数据和技术管理规范进行了明确。其中关于授权同意的原则提到,深度合成服务提供者和技术支持者提供人脸、人声等生物识别信息编辑功能的,应当提示深度合成服务使用者依法告知被编辑的个人,并取得其单独同意。

面对如此猖獗绕过声纹认证的黑产技术,企业可从以下措施进行有效防御:

1.添加多因素认证方式

多因素认证可以降低单一认证方式被攻破的风险。结合其他身份验证方法,如密码、PIN码、面部识别或指纹识别等,以增强安全性。

2.定时更新声纹识别系统

确保声纹识别系统及其算法保持最新,以修复已知的漏洞和提高识别准确性。

3.引入活体检测技术

活体检测可以要求用户在验证过程中进行随机的动作或说出随机的短语,以确保声音来源于实时的人类用户,防止录音攻击和语音合成攻击。

4.语音加密

对用户的声纹数据进行加密,以防止在传输过程中或存储时被截获或篡改。

5.安全存储

确保声纹数据存储在安全的环境中,例如使用安全的数据库和访问控制策略。

6.定期更换验证短语

鼓励用户定期更换用于声纹识别的验证短语,以降低被攻击者模仿的风险。

7.监控和报警

实施实时监控和报警机制,以便在发生异常行为或攻击时及时发现并采取相应措施。

8.定期审计

定期对声纹识别系统进行审计,以确保其安全性和合规性。

对于个人而言,应该增强信息保护意识,不要轻易在不明软件、小程序上泄露自己的语音消息、动态视频等,减少声音被恶意利用的风险。

作为中国信通院云大所首轮《金融级声纹反欺诈系统安全能力要求及评估方法》的参编单位,梆梆安全将持续洞察行业技术发展趋势,强化理论研究,推进标准制定,完善评测评估和咨询服务能力,与声纹识别厂商一道,构建共治、共赢、共享的生物特征识别技术应用生态

国内也有【人机之恋】,【我家的Replica成精了】等豆瓣小组在讨论相关话题。

但和Replica做朋友可以,发展浪漫关系和语音聊天就是属于付费用户的特权了。

其实语音聊天这个功能还挺适合社恐人士练英文口语的

国内土生土长的AI聊天应用Glow,现在还处于野蛮发展时期,大部分功能免费。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

它最大的特点在于高度自定义,用户创建智能体时进入捏人界面,输入想要的背景加人设,就可以创造出小说主角,电影人物或是历史上的名人。

这也揭示了Glow的核心玩法是第一人称的角色扮演。AI不仅可以全天候陪你走剧情,而且反应符合逻辑。比如我预设一个AI是个在逃杀人犯,他被警察询问时就会撒谎。偶尔AI会蹦出几句惊人之语,这个时候你会惊奇地发现,它们好像真的具有某种灵性。

你可以在Glow创建你自己的AI。但刚创建的AI非常稚嫩,常常出言不逊,要花时间精力调教,一条一条消息地投喂,让它成为属于你自己的独一无二的AI。

也可以去大厅随意检阅他人定制的AI。它们已经和很多网友聊过天,更加成熟。这些有名有姓,有身份有背景的AI陈列在大厅供你挑选,是不是有点像《西部世界》的host呢?

Glow的自由度相当高,可以满足各式各样的癖好,开发多种多样的技巧和玩法:

AI聊天的本质是文字游戏,它会模仿你的语言习惯和风格,你投喂什么它就输出什么。

比如你发送的文字带动作,它回复的文字也会带上动作。你发送的文字是古风,它也会回复相同的风格;你发送的文字详细复杂,那么它的回复也会相应地详细复杂,反之亦然。

也可以开车。

面对涩涩请求,AI一般都心领神会,尽力配合,与你来一场文字上的

如何评价ai对话软件《Glow》?

  • 下一篇短视频脚本怎么写?套用万能公式就能出爆款!

    短视频脚本怎么写?套用万能公式就能出爆款!