AI语音交互技术
近年来,由于深度学习技术、大数据、移动互联网、云计算等技术领域的发展,人工智能技术获得了快速、跨越式的发展。作为人工智能技术中的重要领域,智能语音交互技术逐渐成熟,成为最为落地的方向之一,引起业界各方的持续广泛关注,行业发展已迅速进入场景应用布局阶段。智能语音技术在移动智能终端、车载语音交互、可穿戴产品、智能家居领域均有了迅猛发展,进一步推动了语音交互技术的发展和应用。
智能语音发展情况
智能语音可以实现人机交互的语言交互,主要通过声音采集、语音识别、自然语言理解、语音合成等关键环节,实现人机对话、人机交互、智能判断决策的一系列动作。全球智能语音技术发展的快速应用阶段在2010年后,该阶段智能语音技术的应用开始进入新兴的移动互联网领域,标志性的事件即苹果发布智能语音助手Siri,极大拓展了智能语音的用户和受众。
根据中商产业研究院发布的《2019-2024年中国智能语音行业市场前景及投资机会研究报告》,全球智能语音市场规模将从2018年的80亿美元增长至2024年的227亿美元,其中医疗健康、移动银行以及智能终端智能语音技术快速增长的需求将成为主要的驱动因素。
1、智能语音交互系统
智能语音交互系统可实现用户通过语音和机器、终端产品等进行交流并得到反馈,涉及到语音识别、自然语言理解、语音合成、多轮对话管理、音视频融合等关键技术。
根据应用场景分类,消费级智能语音交互系统可分类为车载智能语音产品(前装、后装)、智能家居语音交互(智能音箱、传统家电、智能机器人)、虚拟语音助手(移动应用)、智能语音可穿戴设备(腕表、耳机)等;根据专业级行业的应用场景,智能语音交互系统可分类为智能语音医疗产品(电子病历)、智能语音教育产品(口语训练与评测)、智能语音客服(呼叫中心、智能问答、语音质检、语料挖掘)等。
2、 产业结构
智能语音产业结构分为三层。上游基础层着重服务器芯片传感器、计算平台和大数据等资源;中游技术层提供语音识别、语音合成、深度/机器学习、人机交互等技术研究和服务;下游应用层指技术使用者,包括在智能家居、金融、医疗、安防等不同领域的典型应用。
图1 智能语音产业结构
3、国内智能语音发展
在智能语音领域,国外巨头如谷歌、亚马逊等科技公司起步较早,在基础算法和产品创新上走在前列,并推出了爆款语音产品智能音箱,极大促进了语音技术的发展、落地和市场应用。伴随国内新兴产业发展起来的科技巨头已可以与国外企业竞争,如百度在语音识别、AI操作系统、深度学习等领域达到全球领先水平;科大讯飞的智能语音技术连续获得全球语音合成大赛第一名,在方言、俚语等领域可实现中文精准翻译。
国内政策方面,2017年12月工业和信息化部发布了《促进新一代人工智能产业发展三年行动计划(2018-2020年)》,着重提出要在智能语音交互系统取得突破,包括支持新一代语音识别框架、口语化语音识别、个性化语音识别、智能对话、音视频融合、语音合成等技术的创新应用,在智能制造、智能家居等重点领域开展推广应用。到2020年,实现多场景下中文语音识别平均准确率达到96%,5米远场识别率超过92%,用户对话意图识别准确率超过90%。
语音交互关键技术
基于语音的人机交互是当前人机交互技术的主要表现形式,结合人机交互过程,可以看出其关键技术主要包括:语音识别、语言处理、语音合成、逻辑处理及内容整合等。
图2 智能语音交互的技术流程
1、语音识别
语音识别即机器读取人说话的内容,将语音转换为文本。这个过程要提取训练音频中的特征,并结合特征构建和训练声学模型、语言模型。具体的流程如图3所示:
在进行语音识别前,为了保证识别效果,语音的首段和尾段可以先通过切除处理,避免干扰后续的处理过程,将一段语音进行分帧。这个语音信号预处理的过程一般称为VAD,语音识别后续的操作都是在VAD截取出来的有效片段上进行,从而能够减小语音识别系统噪声误识别率及系统功耗。把每一帧波形变成一个多维向量,这个向量包含了这帧语音的内容信息,这个过程为声学特征提取,常见的有梅尔频率倒谱系数MFCC。另外,如卷积神经网络CNN、CNN-LSTM-DNN等深度神经网络模型在语音特征提取中取得了良好的效果。声学模型是把语音转化为声学表示的输出,即找到给定的语音源于某个声学符号的概率。
图3 语音识别流程
2、自然语言处理
自然语言处理融合了语言学、计算机科学、数学等多学科内容,可分为自然语言理解、自然语言生成、对话管理。语言理解和生成分别指理解用户的语言输入和产生系统的语言输出,直接影响对话系统的性能。对话管理从语言理解获取输入信息,维护对话过程中的系统内部状态,并基于状态生成对话策略,输出至语言生成。当前的自然语言处理技术还只能实现较浅层面的人机交互,对于较为复杂的沟通场景,如多轮对话、上下文联系紧密、逻辑推理、情感表达等,人机交互还不能像人与人沟通那样顺畅自然。
3、语音合成
目前主流的语音合成技术主要指TTS,即将文字转换为语音。具体实现过程可分为前端文本分析和后端语音合成两部分。文本处理实现将文本转化成音素序列,并标出每个音素的起止时间、频率变化等信息。常见的语音合成算法有三种:(1)拼接法,从事先录制的大量语音中,选择所需的基本单位拼接而成。(2)参数法,将语音的特征参数如共振峰频、基频等通过统计模型产生,并用波形的方式将这些参数输出。(3)HMM模型法,建立声道的物理模型,通过这个物理模型产生波形。
图4 语音合成流程
4、语音数据库
语音数据库是语音交互中关键技术发展的基础,一切关键算法的优化和创新都依托于高质量语音数据的训练和测试。通常来说,语音数据库包括训练语音数据和测试语音数据,训练语音数据用于算法构建、参数调优等,测试语音数据用来验证识别效果等。高质量的标准语音数据库建设是智能语音发展的保障,目前常用的公开中文语音数据库介绍如下:
(1)清华大学THCHS-30中文语音库
THCHS-30语音库是由清华大学语音与语言技术中心(CSLT)出版的开源中文语音数据库。初版录音于2002年由朱晓燕教授在清华大学计算机科学系智能与系统重点实验室下进行。该数据库是较经典的中文语音数据集,包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。他们希望为语音识别领域的新入门的研究人员提供玩具级别的数据库,因此数据库对学术用户完全免费。
(2)Mandarin Chinese Read Speech Corpus
该语料库包含755小时的语音数据,其主要是移动终端的录音数据。来自中国不同重点区域的1080名演讲者参与录制,句子转录准确率高于98%,录音在安静的室内环境中进行。数据库分为训练集,验证集和测试集,比例为51:1:2。诸如语音数据编码和说话者信息的细节信息被保存在元数据文件中,录音文本领域多样化,包括互动问答,音乐搜索,SNS信息,家庭指挥和控制等。该语料库旨在支持语音识别,机器翻译,说话人识别和其他语音相关领域的研究人员。因此语料库完全免费用于学术用途。
(3)ST-CMDS
ST-CMDS中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用。
(4)AISHELL开源版
AISHELL中文语音数据集,其中包含约178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中使用高保真麦克风进行录音,并采样降至16kHz。通过专业的语音注释和严格的质量检查,手动转录准确率达到95%以上。
随着智能语音技术的研究和发展,满足于各种需求的语音数据库不断被发布。由于我国地缘辽阔、民族众多、语言历史悠久,除中文普通话外,还有不同地域方言、不同地域重口音普通话、不同民族语言等种类,产业对不同维度的语音数据库具有迫切的需求。
结束语
在人工智能领域,语音交互技术的应用已经渗透到各垂直行业中,市场上涌现了越来越多搭载语音交互系统的智能产品,这对产品的语音性能测评也提出了更高要求,因此面向语音技术和产品的技术要求和测评标准需尽快完善落地。
目前来看,国内各研究单位、标准组织和协会如CCSA、TAF、AIIA等均在AI语音标准方面进行了大量的工作,相关的标准已相对比较完备。但由于新形态的语音产品不断涌现,标准工作应从产业和市场的实际需求出发,联合业界各方对新技术、新产品展开研究,保证标准研究工作的可行性和落地性。
作者简介
李玮,工学硕士,中国信息通信研究院泰尔终端实验室工程师,主要从事智能终端产品的语音测评研究和标准工作。
联系方式:liwei4@caict.ac.cn