AI语音助手普遍存在的“窃听”问题,思必驰能解吗?
遥想2011年,Siri被成功移植到iPhone4上,随后,与手机语音对话的新玩法引起了消费者对语音助手的兴趣。2014年,亚马逊推出搭载Alexa语音助手的智能音箱Echo,引领了全球智能音箱的热潮。不过,历经多年,语音助手既没有成为消费者离不开的智能助手,还因接连爆出的窃听问题引发担忧。语音助手窃听的目的是什么?语音助手的隐私问题能否解决?
语音助手为什么要窃听?
8月28日,苹果就 Siri 隐私问题道歉并表示会做出改变。之所以要道歉,是因为7月26日英国《卫报》报道称,Siri 会在未经用户允许的情况下,将用户录音上传到服务器,并发送给苹果外包的承包商进行人工分析。而这些录音包含使机密、位置、联系方式等敏感信息。
Siri并非唯一被爆出窃听隐私的语音助手,同样在7月,比利时新闻网站VRT报道称 Google 涉嫌通过Google Assistant语音助手,监听用户私人谈话内容的消息,并且 Google 的一些合作伙伴向其泄露了1000多条Google语音助手和客户对话的录音。
更早的4月,彭博社援引知情人士透露,亚马逊负责评估Alexa语音助手用户指令的团队,可以获得用户定位信息,甚至是用户具体的家庭住址。
为什么语音助手接连被爆出存在窃听隐私的问题?上海深聪智能(思必驰与中芯国际下属投资公司中芯聚源的合资公司)CTO 朱澄宇接受雷锋网专访时表示:这些公司的目的并不是真的要侵犯用户隐私,而是为了采集一些数据进行训练让语音助手更加智能。
深聪智能 CTO 朱澄宇
这确实是语音助手收集录音的目的所在,苹果在声明中表示,为了更准确地完成个性化任务,Siri 会收集和存储用户设备上的特定信息。
朱澄宇同时表示,语音助手的技术已经有了,但用户之所以更多的只是使用天气播报、讲故事这些功能。一方面,是因为语音助手后面连接的内容和应用还不够多,需要更多的内容和服务提供方对语音助手开放接口;另一方面,要让语音助手完成更复杂的任务,比如订机票和叫外卖,需要多轮对话的语音技术,更需要通过大量的数据训练让语音助手更懂用户。
如何保护隐私?
由此,我们也就能理解语音助所面临的困局。AI语音算法的提升需要大量的数据进行训练,但数据的收集又会涉及用户隐私,现在需要找到一个平衡或者解决办法。对此,朱澄宇给出了自己的两个想法。他认为,现阶段可以用公认的方法或者制定相应的标准,在保护隐私的情况下,收集用于训练的数据。另外,随着AI技术的发展,到了成熟期之后可能对训练的需求没那么旺盛,窃听的事情可能就不会发生。
目前,我们既没有看到数据收集的标准,AI语音算法也未达到成熟的阶段。此时如何保护用户隐私?朱澄宇表示:我们提供融合思必驰的算法和深聪的AI芯片的软硬一体的方案,基于我们强大的AI芯片,尽量把云端的工作搬到终端,语音的部分不需要上传到云端,这就是对用户隐私最大的保障。
不过,要在终端实现部分云端的AI功能,终端AI算力的提升至关重要。朱澄宇指出,思必驰的算法可以与深聪的芯片进行深度融合,可以用通用芯片十分之一甚至百分之一的算力就可以达到同样的效果,对于深聪而言,目标是提供足够的算力,而非最强大的算力。
什么样的算力对于AI语音芯片是合适的?相比图像AI芯片,由于语音的神经网络的规模比图像的神经网络规模小,因此图像的AI算力需求比语音更强。但从处理的复杂程度看,两者相当,这是因为将语音转换成文字之后,还涉及到语义的识别、多轮对话等,在某种程度上比图像人脸识别更为复杂。
朱澄宇表示,深聪需要预估市场的需求,然后转换成一个量化的硬件指标。同时还要考虑到算法的快速迭代,用一套方法和流程去应变,而这个应变的过程就是软硬协同的过程。比如深聪定义下一代芯片的时候,要实现本地语音识别,就会根据目前的语音算法需要的算力进行评估,再增加一些冗余。
雷锋网此前报道,深聪的首代AI芯片TH1520进行了软硬一体的深度优化,基于双DSP架构,内部集成codec编解码器以及大容量的内置存储单元,同时,TH1520采用了AI指令集扩展和算法硬件加速的方式,使其相较于传统通用芯片具有10倍以上的效率提升。并且,TH1520在架构上具有算力及存储资源的灵活性,支持未来算法的升级和扩展。
TH1520在2018年8月流片,11月点亮验证,目前已经量产。深聪的第二代AI语音芯片除了会支持AI本地语音识别,还会增加会声纹识别的功能。据朱澄宇介绍,要支持声纹的功能需要芯片有更强的算力,深聪在最开始芯片架构设计的时候就已经考虑到,采用了双DSP的架构。
低功耗芯片实现更好的AI助手
AI语音芯片更强的算力对解决语音助手的隐私问题和实现更复杂功能都有重要作用,与此同时,低功耗对于提升语音助手的体验也十分关键。目前,搭载语音助手的产品最普及的就是智能音箱和智能手机。对于智能音箱而言,虽然采用电源供电,但低功耗芯片也影响着语音助手能否在实现高唤醒率的同时减少误唤醒。
朱澄宇表示,语音助手的唤醒率主要还是取决于软件层面,这其中涉及到确认机制,在AI语音芯片算力还不够强的时候,为了兼顾低功耗,有的语音助手可能会把唤醒的阈值设的很低,这样又会带来误唤醒的问题。有了高性能且低功耗的芯片,就能在一定程度上解决这个问题,深聪的TH1520,兼具低功耗和实用性,采用多级唤醒模式,内置低功耗IP,在Always-On监听阶段的功耗低至毫瓦级,典型工作场景功耗仅需几十毫瓦,极端场景峰值功耗不超过百毫瓦。
手机作为另一个语音助理普及的产品,可以看到,安卓手机息屏就能唤醒语音助手功能的实现比iOS晚了一段时间,这其中很重要的原因是要在手机电池供电的情况下,Always On的实现同时兼具低功耗需要软硬件的共同优化。
未来,想要在更多电池供电的设备中用上语音助手,最终改变人机交互的方式,AI语音芯片需要实现更低功耗。那如何才能实现更低功耗?朱澄宇表示,一方面可以从硬件入手,通过架构提升效率,深聪定制架构的最大好处就是能够根据算法定义合理的芯片参数,实现更高的能效。另一方面可以采用更低功耗的半导体工艺降低功耗。
除了从数字电路入手,模拟电路的部分也有降低功耗的方法,比如在不影响或者对功能影响很小的情况下,采用更低精度的ADC(模数转换器),在性能和功耗之间做一个交换。我们既有软件,也提供硬件,更加清楚如何进行功耗和性能的交换,这也是用通用芯片很难做的。朱澄宇同时表示。
有了更高性能和更低功耗的AI芯片之后,语音助手就可以实现更好的体验。比如家庭中的智能音箱往往有多个用户,更高算力和更低功耗的AI芯片可以实现声纹功能,这就可以让语音助手通过声音的特性判断对话人,根据对话人的喜好提供更个性化和智能的服务。
还有,更高能效也能够实现多模态的融合,将AI语音功能和AI图像功能进行融合,提供一个更加智能的AI助手。多模态的融合既可以从算法层面做一些融合,也可以共用硬件的模块,这是业界正在探讨的方向。声纹识别以及多模态的支持都在深聪的AI芯片产品路线图中。
深聪智能产品规划路线图
至于AI到底需要专用还是通用的芯片,朱澄宇认为,从芯片发展的规律来看,总是在专用和通用之间不断循环,但最终还是取决于算法,如果有一个算法能一统江湖,AI芯片可能就变成通用的了,但目前来看专用芯片更适合AI。
雷锋网小结
语音助手智能化的提升和用户隐私之间是一个矛盾,或许正是出于苹果对隐私保护的考量,Siri目前的智能化水平弱于许多其他语音助手。不过,思必驰的软硬一体化的方案能在保护隐私方面发挥优势,这是因为硬件和软件的深度融合能够在使用更少硬件资源的情况下实现比通用芯片几十倍甚至上百倍的能效提升。这种终端AI性能的提升有能力将可以把语音的部分在终端就进行处理,无需上传到云端,很好地保护用户的隐私。
当然,为了更好地普及AI语音助手以及实现多模态融合的AI助手,提升芯片性能的同时兼具低功耗也非常重要。对于强于算法和软件的思必驰而言,与中芯国际下属投资公司中芯聚源成立合资公司深聪智能,是明确了市场需求并看好AI语音市场的前景作出的决定。从深聪的路线图能看出其做芯片有着长远的规划,结合思必驰对市场需求更加了解的优势,未来软硬一体的方案将会展现出更大的优势。