虚拟世界的新物种:9问虚拟数字人
虚拟主播,虚拟老师,虚拟客服,虚拟歌手,虚拟导游….一个个鲜活的虚拟角色正在扑面而来,进入企业和大众的视野, 让以商业和技术为导向的数字经济多了些温情和烟火气。
这些虚拟角色的背后是集合了视觉、语义、语音等多种人工智能技术的多模态交互技术,能对人体的形态、表情和动作进行模拟仿真,打造出高度拟人化的虚拟形象,并具备听与说的能力,像真人般与人互动沟通,我们称之为虚拟数字人 (以下简称数字人) 。
作为中国人工智能产业发展联盟(AIIA)数字人标准起草单位,追一科技在数年前就预见到数字人的应用潜力,开展了预研,如今已在多个行业实现规模化应用。今天我们请追一科技的数字人团队分享他们在数字人领域的应用经验和对未来趋势的看法。
Q1:为什么数字人的应用正越来越受欢迎?
【关键词】:虚拟世界, 体验经济,人机交互新范式
越来越多的数字人应用见证的是一个虚拟世界的崛起。如果说在互联网时代,各种在线平台代表的是一种初级的虚拟世界,这个虚拟世界和物理世界之间还有着明显的区隔甚至割裂。 随着5G等信息基础设施的完善,社交的视频化,视频会议和直播的普及,游戏的云化,物联网和数字孪生的发展, 虚拟现实/增强现实/混合现实的成熟,万物互联的世界逐渐成型,再加上人工智能等新兴技术的加持,一个和物理世界逐渐融合的的虚拟世界正在崛起,人机交互的方式加速更迭,变得越来越丰富立体。先是有文本交互(比如即时通信工具聊天),后有语音交互(比如机器人外呼,智能家居的语音控制),再到融合了视觉、语音及语义技术的多模态数字人交互 (比如数字人导购,虚拟教师),用户在虚拟世界中将得到更为真实,更接近现实,更具沉浸感的体验。物理世界中人人交互的场景会越来越多在虚拟世界中迁移、复制并融合新体验,这就是数字人交互应用潜力所在,代表着智能人机交互的新范式。
此外,现在客户越来越重视体验,不只是满足于传统的价格、功能这些因素,悦己的情感诉求不断提升,体验经济渐渐崛起。基于生活和情境打造感官体验,让顾客在购物和服务中获得更好的愉悦感,有助于提升客户满意度,这也是数字人发展的一个重要驱动因素。
Q2:相对于文本和语音交互技术,数字人交互的价值具体体现在哪里?
【关键词】:真实,效率,情感
追一数字人团队:数字人最重要的价值是给用户提供更真实自然的交互方式,就像我们人与人之间的沟通一样,是最真实的,带来非常自然的体验,更加人性化。比如在教育场景,数字人可以做老师的虚拟形象,跟学生互动,提升学习的积极性和体验。
此外,从交互效率的角度来看,文本和语音都有局限。文本交互需要打字,语音可能会丢失信息(比如嘈杂环境下),但数字人听的懂,看的见,说的出,将身份识别、手势识别、情感识别等信息包含进来,信息收集、交互和传递维度更为丰富,有更强的场景适应性, 还可以增加多媒体面板以富媒体的形式表达信息,交互效率也提高不少。
再者,数字人是非常好的情感化表达载体,在一些特定场景下有独特优势,是其他交互形式无法替代的,比如说针对独居老人,可以做一个亲人的形象来陪伴老人;针对留守儿童,可以做爸爸妈妈的形象。而语音和语义的交互形式更多停留在功能上的作用,情感化属性相对欠缺。 情感属性的另一面还体现在数字人有助于企业品牌的人格化,和客户建立更人性化的情感纽带。
当然,目前数字人的应用还在早期,随着时间的推移,大家对数字人的认识越来越深,越来越多的数字人价值会被发现和释放。
Q3:数字人行业整体发展情况如何 ?
【关键词】百舸争流,良莠不齐
追一数字人团队:
今年可以看作是数字人的元年,需求渐渐起来,越来越多的厂商也在进入数字人领域,一些行业的领先公司已经开始应用数字人,可以说是百舸争流,群雄逐鹿。不过整个数字人市场还在发展的初级阶段,各家公司都在探索不同的落地场景,大家走的方向和路径也有所不同。
从是否具备双向交流能力来看,数字人可分为交互型和非交互型。交互型就是具备类似于人的沟通和互动能力,能实时与人双向交流,可以用在客户服务,教育培训,营销导购等互动式场景,非交互型主要是指按照事先设定好的内容和情境单向输出内容,比如数字人主播,或者电影和游戏中的数字人。 数字人的呈现形式可分为真人形象, 仿真,和卡通类型。 真人形象目前是2D为主,能做到对人的形象像素级还原,3D真人要做到实时驱动唇形,动作,表情,目前技术上可行度不高,而仿真和卡通类型可以做到3D。
其实数字人技术挑战是蛮大的,特别是交互型,需要在语义、语音、视觉、底层算法等领域都有足够的技术积累,但目前各家企业技术良莠不齐,满足这些条件的厂商不多。有些厂商做的demo看上去很炫酷,但是新瓶装旧酒, 到底有多少真材实料要打个问号 真正从算法层面上实现的不多。
相信随着时间的推移,有一批公司会被淘汰掉;有自己核心技术的,经过时间的验证,会留下来的。追一在业内率先对数字人做了预研,有着深厚的技术积累,商业落地也走在前面,我们对自己的产品是非常有信心的。
Q4:作为一种新兴的技术应用,虚拟数字人的难点在哪里?
【关键词】表现力,算法,交互
追一数字人团队:相比语义、语音交互产品,数字人加入了视觉元素,需要一个逼真的形象,让用户能够有交互的沉浸感。怎么让数字人在与用户的交互中做到非常自然,比如说数字人的声音和形象要同步,嘴型、动作和表情要匹配,没有瑕疵,而且要在对话中实时推理完成的,这对算法和计算性能的要求非常高,是非常难的。实际上,数字人是从文本低维信号转变为图像高维信号的过程,只有同时具备自然语言理解(NLP)、语音识别和生成,视觉合成这样的整体AI能力,才能给用户一个自然逼真的体验。
从产品设计的角度上讲,数字人是一个类似于人与人之间面对面交互的产品,语义、语音、视觉的交互是同步进行的。在产品设计的时候,怎么去设计这套交互规范,让它们互相协同,是比较大的一个挑战,需要时间上的沉淀和系统化的思考,也需要在实际落地应用中持续积累和迭代。
在这方面我们也做了很多探索,目前我们通过智慧超脑和智能导演系统来尝试做一些突破。智慧超脑,顾名思义,相当于数字人的大脑,是核心中枢,它集合NLP、深度学习、强化学习等多种AI能力,连接海量知识库,经由智慧超脑的精密运算,数字人的会话意图准确率在95%以上,确保交互的准确性。智能导演系统是数字人的后台决策系统,通过综合调动各项AI能力,让数字人的声音、形象等要素协调统一,自然流畅。
Q5:追一的虚拟数字人有何特点
【关键词】全栈,逼真,全案,
追一数字人团队:尽管市面上越来越多的厂商开始发力数字人产品,但追一在技术积淀、仿真程度、全案交付能力上有着明显优势。
数字人从算法到设计,再到工程化和集成环节是非常复杂的,需要对语音、语义、视觉三个不同方向的AI能力进行整合,这要求厂商有非常深厚的技术积淀。追一是做语义起家的,逐步发展到语音和视觉多模态技术,形成全栈AI的能力,尤其是数字人的核心大脑部分,主要是依赖NLP技术实现人与人的双向交互,而NLP正是我们的核心技术优势,这是许多厂商所不具备的。
数字人的表现力一直是难点。得益于我们多年来对算法的钻研与沉淀,目前已经能实现快速准确的实时推理,确保嘴唇和声音完美契合,肢体动作自然流畅,图像合成逼真拟人,再加上我们在模特选型方面也特别注重其亲和力,确保最终呈现的数字人栩栩如生,具有无限接近于真人的表现力。
全案交付能力上,追一是一家专注于To B企业级市场的厂商,在金融、电信运营商等领域有丰富经验,能够深刻理解客户的业务场景和需求,有能力打磨面向企业级的全套数字人解决方案,实现包括数字人的形象、大脑、载体在内的整体解决方案设计及交付。市面上多数厂商仅能提供非交互型数字人解决方案的时候,我们的方案就已经覆盖全场景(交互型和非交互型)和全类型(真人,仿真, 卡通)。全栈的AI技术能力也使我们能提供一站式解决方案,无需依赖第三方技术。
Q6:虚拟数字人的应用场景有哪些?
【关键词】交互vs. 非交互,技术融合,人机协作
追一数字人团队:数字人的落地现在大家直观感受到比较多的应用是影视和游戏中的虚拟人物和媒体中的虚拟新闻主播这种非交互型,缺乏与人的沟通互动能力。而具备互动能力的交互型数字人有着非常大的应用空间,代表着数字人发展的新趋势。我们现在观察到的交互型的应用场景,比如在金融和电信行业,数字人用于在线客户服务,理财顾问,营销导购等;在零售业,结合大屏等硬件,可以在营业厅或展厅做客户服务或导购;在智能家居行业,我们也观察到正在尝试用数字人交互的方式来控制家居设备。
长远来看,现在数字人应用还在早期,今后数字人和不同行业和技术领域的融合会越来越深,应用场景会逐步拓宽,有非常多的可能性。一方面随着市场的成熟,越来越多的企业和大众会认识到数字人的价值,产生新的需求。另一方面,数字人和其他新技术的融合产生的组合效应会催生出更多的应用场景。 比如在文旅和娱乐行业,通过和VR/AR技术的结合,可以由虚拟导游或讲解员引导游客参观虚拟博物馆, 或在游戏和电影中和里面的虚拟人物进行语音、动作等多维度的互动,有着深度的参与感;在教育行业,我们正在探讨将数字人和我们的产品智能培训师Learn结合, 打造一个虚拟讲师来做培训;硬件的发展也会推动交互方式的升级,例如随着可穿戴设备越来越普及后,多模态交互一定会成为未来主流的硬件交互方式,用户会越来越习惯与数字人进行多模态交互。
此外,数字人不只是替代真人员工完成这些服务,还能和员工一起协作,我们对服务场景了解得很深入,了解行业痛点,开发了形象替身这个功能,在数字人服务过程中,如果客户需要转人工服务,而真人出镜不太合适的话,可以保持数字人的形象,真人在背后用声音驱动数字人的表情,动作,这样会给客户带来更好的体验。
Q7:能列举一些交互型数字人的实际应用案例吗?
【关键词】 真人交互型
交互型数字人中,真人形象带来的体验最好,市场需求潜力也最大,追一已经在金融,电信,政务等领域落地了真人形象交互型数字人。
我们和西安银行合作打造了银行业首个手机客户端真人交互型数字人,用户可以通过面对面服务的方式完成转账等一些列操作。这个对老年人等特定群体是非常有价值的,降低他们学习使用智能手机的难度,提供无障碍的交互体验,帮助他们跨越数字鸿沟。
另外,我们也在探索和电信运营商的合作,包括客户热线IVR视频客服和展会大厅客服。中移在线将我们的数字人应用到他们的5G+IVR云客服解决方案中,相比传统IVR只有语音播报,数字人IVR有着高仿真的外形和面对面的交互方式,能更好地打造温情服务。我们也和中移动合作了展会大厅客服,结合线下大屏,除了能自然流畅地对话,还能实时呈现丰富的多媒体面板,支持话费查询、流量办理、医保查询等功能,支持4K超高清画面显示。
在政务领域,数字人也有很大的应用空间。 在某副省级城市, 我们正在帮助税务部门在办税大厅中应用大屏数字人为用户提供咨询服务, 提升办税体验。
Q8:如何构建一个虚拟数字人?
【关键词】人物定制,场景定制,部署形式,呈现载体
追一数字人团队: 像数字人这样集齐十八般武艺的创新型产品,大家可能担心这么高科技的产品应用是不是比较复杂,经过近几年的摸索,我们逐渐摸索出了标准化的数字人部署流程,主要分为4个步骤:
首先是人物定制。我们提供不同行业和业务场景的FAQ知识库,让数字人拥有聪明的大脑。一些客户希望数字人形象能契合企业品牌,我们的数字人从外形、人脸、发型、衣着,甚至细致到妆容和唇形都支持个性化定制。在体验上,数字人的音色、韵律、语速、停顿可以调整到高度拟人化。
紧接着是场景定制。如果是低成本量产内容单向传递的,那我们建议客户选择播报型数字人就可以了,如果是要为用户提供一对一的可视化交互服务,那么就要选择交互型数字人,技术上比较复杂,但也是我们的优势。交互方式确定好之后,剩下的就是配件和背景。我们提供丰富的多媒体面板定制,比如图片、表格、菜单面板等等。最后再生成适合数字人的背景,可以是动态的,也可以是静态的,场景的定制就完成了。
到了部署落地阶段,考虑到数字人对硬件GPU的性能和带宽要求都比较高,我们主推公有云的部署方案,硬件由我们来提供,客户只需要接入我们的SDK,加上几行代码就可以把数字人应用到自己的业务领域里,不用去考虑建机房和运维等问题。一些客户对数据保密的要求比较高,我们也推出了混合云部署方案,把数字人的图形渲染和业务逻辑进行一定程度的剥离,既保障了客户的数据安全,也能享受到公有云的便捷服务。
最后是数字人的呈现载体,线上和线下我们都可以覆盖。线上不仅可以在应用程序里访问,还支持H5和小程序。线下方面,4K大屏和软硬件一体机,我们都有对应的解决方案。
Q9:未来数字人的发展有哪些趋势?
【关键词】性能,使用门槛,AI伦理
追一数字人团队:就产品而言,首先还是进一步完善数字人本身的能力,比如更生动的外形,更智能化的对话能力,更真实的交互体验。目前数字人在外形方面已经非常逼真,但是在情感表达和识别、肢体动作方面还有很大提升空间,比如像人一样具有喜怒哀乐等丰富的表情和相应的动作,能根据交互对象的动作和情绪做出适当反应等。
其次,真人形象的数字人的门槛还是比较高的,未来要推广出去,还是需要进一步简化制作流程,降低使用门槛,让更多企业去用到这个服务。目前数字人的形象定制对于原始数据的要求非常高,需要在高标准的录制环境下对模特进行拍摄录制。未来,随着技术进一步发展,用户有可能通过一段自拍视频就可以轻松定制跟自己一模一样的数字人。
当然数字人技术的应用还会带来伦理挑战,比如一些安全和隐私保护的问题,需要开发相应的防伪和检测技术,包括人和机器的边界越来越模糊可能产生的社会问题也是需要我们考虑的。
总的来说,数字人的未来有着各种各样的可能,追一非常乐意和业界的各位朋友一起去探讨这里的机遇和挑战,让企业,政府和消费者能真正从中受益。