1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

我体验了一下虚拟数字人,发现一些问题...

1987web2023-10-07人工智能AI159

点 击金 融 科 技 顾 问即 可 关 注

摘要长度:3230字,时长:8分钟


一夜之间,元宇宙概念爆发。虚拟数字人作为元宇宙应用场景之一,让品牌方趋之若鹜。是真趋势还是凑热闹?站在不同视角就见仁见智了。在实践中,虚拟数字人距离成熟商用化还较远,值得说道说道。

01

热点还是噱头?

不少企业在抢滩元宇宙这个大概念时,会把虚拟数字人作为第一张入场券。一方面虚拟数字人不像元宇宙中其他方向,如人机交互、VR/AR、社交、游戏这些领域切入门槛较高;另一方面,虚拟数字人赛道在元宇宙概念爆发之前已经比较成熟,涉及图形识别、视觉技术、3D建模、渲染、AI、动作捕捉、NLP等细分领域,在传媒、影视、游戏、文旅等行业都有应用。

图:虚拟主播常应用于媒体行业

柳夜熙、许安一、AYAYI...诸多虚拟形象代言人对Z时代的年轻群体有巨大的影响号召力,自然成为品牌方的营销工具和流量密码。

按照券商研究所的分类,数字人、虚拟人和虚拟数字人形成包含关系:

图:某券商研究所对虚拟数字人的分类

而主流的虚拟数字人解决方案是两种:

一、数字分身&数字孪生。现实世界的真人的数字化替身。这种数字分身锚定现实人物,用动作捕捉、图像识别、语音识别、建模技术实现。按照图形维度又分为2D和3D。因为是锚定真人形象,通常都要求视觉和声音的超写实,而且从法律与道德上,还需要与真人签署合同,完成形象和声音的授权,确保形象的合规使用。

二、虚拟IP形象。虚拟IP不挂靠现实世界的人物,是完全人为设计的数字形象,也是当下主流的虚拟数字人方向。柳夜熙、洛天依这种都属于虚拟偶像。同样设计上包括2D和3D,还分为二次元、2D卡通、3D卡通、3D超写实。其中3D超写实虚拟形象是当前热点。

以应用场景来看还可以划分为服务型虚拟人(虚拟主播、虚拟客服、虚拟助手)和身份型虚拟人(虚拟明星、虚拟偶像);若以交互技术方式区分,主要包括真人动作捕捉和算法智能驱动。

目前国内虚拟数字人产业链,多数集中在应用层和生产服务平台层基础引擎的不多(大名鼎鼎的Unity和Unreal就在这个领域。这和国内一向侧重于应用场景与工程实践变现的逻辑相契合。

最近参与了一个元宇宙项目,涉及到制作虚拟数字人专业顾问形象。我调研了几家市场上知名虚拟数字人厂商的技术方案,发现离成熟的商业化应用还有不小的距离。

02

实践中一些问题

衡量虚拟数字人的商用化成熟度,我认为应从四个方面来评估:视觉形象、语音合成、开发投入、运营成本。

一、视觉形象

视觉形象与应用场景、建模、动作捕捉、渲染技术、硬件都有关系,但衡量标准还是真实性、精度、实时性。

拿金融行业来说,智能客服、投资理财顾问、分析师这种严谨、专业的客户陪伴场景,就需要尽可能高保真、贴近真人形象,而不是用二次元和卡通人物;而像媒体、游戏、娱乐、电商直播这种面向C端、尤其是年轻群体的,为了抓住眼球吸引流量,常采用虚拟IP、打造虚拟偶像的形式。

如果是采用真人1:1数字孪生的方式,目前主流技术还是动作、表情和语音的捕捉,再进行深度学习算法建模,最终产生数字形象。无论是2D还是3D建模,目前与真人或多或少都有差异,还做不到低成本的高保真。而如果做一个全新的虚拟形象,除3D超写实技术外,其他都有些蜡像、玩偶的感觉。

例如银行打造的数字员工客服,一般应用在营业网点大屏给客户投放业务介绍和产品宣传内容,对形象、着装、肢体动作要求就要高一些。但实际中,这些数字员工呈现的效果,都不太理想——虚拟人表情、动作僵硬和蜡像感。

图:银行网点的数字员工

当然,对高保真的要求,不仅与品牌方、场景方的接受程度和使用场景相关,还与受众的感知有关。有些厂商降低了虚拟人制作门槛,可以分钟级打造一个形象出来,但真实感就大打折扣;有些3D超写实虚拟人制作周期要数月,这样成本就上去了。

此外,虚拟人交互形式还有离线和实时两种场景。离线交互就是先录制好虚拟人视频再播放,如电影、广告、宣传片这种场景。如果是应用于直播、在线会议这种实时交互场景,则需要实时渲染技术,这不仅对GPU硬件能力有较高的要求,而且还需要持续地渲染能力,防止穿模、卡顿现象。实际体验中,离线交互的方式还可以接受,实时交互依赖的硬件、技术条件就非常多,成本较高,还谈不上成熟商用化。

二、语音技术

除了形象、动画生成外,语音我认为也是目前虚拟数字人技术还不太成熟的一个地方。目前主要是合成语音和真人语音两种。

用AI训练合成的语音,需要高时长地采集真人声音作为训练样板,最终生成类似真人的声调和节奏,然后再做音画同步、唇型匹配;如果直接用真人语音,则等于是用真人给虚拟人来配音。这两种做法各有优劣。比如合成语音,要么唇型与肢体动作不协调,要么听上去非常僵硬、卡顿不流畅,没有抑扬顿挫感。而真人配音的方式,则需要专人在后台实时播报,在一些短视频直播、会议、培训场景还可以用用,在7*24小时的陪伴式服务中就很难实现了。

有的厂商专攻形象制作,语音就做得差一点;有些厂商语音识别和合成技术做得好,形象就做得差一点。两者都做得好的就比较少了。这也应该是未来虚拟数字人厂商发力的方向。

三、开发投入

虚拟数字人的2B商用解决方案还处于早期,不同厂商打造一个虚拟数字人的成本差异较大,数万元到数百万元的都有,和是否超写实、2D还是3D、动作捕捉方式、是否具备语音合成技术、高性能软硬件资源、以及配套内容生产制作服务等都有关系。

有些厂商宣称数分钟内可以打造一个虚拟数字人形象,大大降低了制作周期和成本,利用Epic的Unreal引擎渲染技术就可以做。但这种往往难以满足企业客户定制化要求。

企业客户定制化做一个虚拟数字人,如果采用1:1数字孪生的方式,价位通常在几十万到一百多万/每形象。而如果采用打造3D超写实虚拟IP的方式,也通常在几十万这个级别。

从这种开发成本投入来看,批量生产虚拟数字人不具备现实条件,只能做单个形象,也就是市场上看到的某虚拟品牌官、某数字员工。这样来看,虚拟数字人距离低成本商用化还有较长的距离。越写实、越精细,成本就越高,也就是高精度和低成本相悖。在虚拟数字人到底能产生多少流量变现还待观察的阶段,开发成本投入是场景方关注的焦点(不差钱的另说)。

四、运营成本

前面说大部分厂商术业有专攻,有的偏形象打造、有的偏语音合成,但在虚拟数字人的内容生产运营服务上,都显得不太成熟。

在我看来,虚拟数字人绝不仅仅只是做一个形象这么简单,而是围绕Ta打造一个长期运营的私域流量池。只是制作出来没什么用,要在内容生产、采编、制作到发布,形成一整套的服务化解决方案。这里面内容创作和运营的成本,远远大于前期开发一个虚拟数字人。

从实际体验来看,内容运营服务也有两种:一种是提供工具,即配套提供SaaS/PaaS的AI视觉与动作创作、文字与语音合成、视频制作编辑工具,然后提供内容下载、视频推流或SDK/API方式,嵌入到场景方的终端运营平台里面去;还有一种是内容运营外包,提供素材采集、内容制造、直播或录制、然后内容发布上线一揽子人力服务。

图:虚拟数字人制作并不简单

前者是提供工具,内容创作和运营的压力在场景方。如果是媒体、影视、电商、游戏等重运营的行业,内容输出有专门的团队负责。而如果是传统行业,如金融,往往不会安排专人负责虚拟数字人的内容运营,通常采用后者服务外包的方式让供应商来做,但这样一来人力成本就会比较高。

所以制作一个虚拟数字人只是0到1,难点还在1到N的长期运营。如果企业除了跟风炒热点外,还希望真的能够带来一拨私域流量转化,那么持续内容运营就是必不可少的。这也决定了一个虚拟数字人的生命周期到底有多长。

03

未来发展判断

我难以判断元宇宙这个大概念是否是必然的趋势,但人机交互、VR/AR、产业互联网、AI、游戏的融合式发展已全面铺开。当人类身份已参与到二元世界之中,生存与交互已建立在数字世界与现实世界双重基础上,虚实共生成为这个时代的关键属性。在这一背景下,炒作虚拟数字人有其现实意义。

虽然当前虚拟数字人的发展水平,与真正意义上的元宇宙仍然差距较大,但技术创新代际在不断缩短,推动着场景方在不断地探索尝试虚拟数字人未来发展走向,一定是面向更低成本、更高保真和更深度的场景融合,形成现实世界与虚拟世界的桥梁。

专注于金融科技的原创与深度思考

欢迎在文章下方留言与交流


————/ 往期推荐 /————

01

用AI虚拟奶奶

B站UP主吴伍六是一位上海的00后视觉设计师。前段时间他发布了一段视频,视频中,吴伍六用AI工具生成了奶奶的虚拟数字人,并和奶奶进行了对话。

视频里,奶奶讲着湖北的方言,头发花白,像她生前一样唠叨。光看表情,可以说是惟妙惟肖。

因为非常思念奶奶,吴伍六和奶奶聊了很多,比如升职加薪,比如最近的身体状况。

“00后”用AI技术“复活”奶奶!生成虚拟数字人是否存在隐患?

近期

  • 下一篇虚拟数字人也需要“保险”警惕不当营销风险

    虚拟数字人也需要“保险”警惕不当营销风险

    来源:中国银行保险报