5分钟为你破解超火的虚拟数字人如何制作?
虚拟人概念从早期动漫领域的初音未来用一首《甩葱歌》让绿色双马尾的歌姬形象火出圈,到洛天依登上央视春晚舞台,再到众多虚拟歌手、虚拟主播、KOL、代言人等活跃于各种情境中。
去年以来,元宇宙和虚拟人技术进入全球科技产业的聚光灯下,国内也涌现出了很多新的虚拟人形象。2021年10月,虚拟美妆达人柳夜熙将虚拟数字人推向了更多普通用户。
要知道,具有数字化外形的虚拟人,与具备实体的机器人是不同的,虚拟人依赖显示设备存在,且具备以下三方面特征:
一、拥有人的外观,具有特定的相貌、性别和性格等人物特征;
二、拥有人的行为,具有用语言、面部表情和肢体动作表达的能力;
三、拥有人的思想,具有识别外界环境、并能与人交流互动的能力。
虚拟人可以根据角色类型分为三种:
1、写实/超写实类角色虚拟人,比如柳夜熙、翎ling、AYAYI等;
2、二次元角色虚拟人,比如洛天依、初音未来、星瞳等;
3、卡通/吉祥物角色虚拟人,比如海尔兄弟、京东狗、苏格拉宁等。
为了更好地理解虚拟人,可以对其制作环节进行拆解。
虚拟人制作环节拆解
虚拟人的实现主要由建模、驱动、渲染、呈现与互动,5大环节组成。
其中建模、驱动、渲染环节主要依靠影视CG、VFX技术与游戏引擎等实现:
首先,3D建模为构建虚拟人形象的基础,重点在于实现细节的精细还原;
其次,通过将捕捉采集的动作迁移至虚拟人是目前3D虚拟人动作生成的主要方式,核心技术是动作捕捉;
最后,渲染技术用于提升虚拟人的逼真程度,实时互动亦需要实现实时渲染。
根据Unity技术开放日公布的流程,Unity制作虚拟人先要根据FaceCode标准扫描真人的极限表情,接着要进行模型清理、BlendShap拆分,并修补细节、修贴图和血流图等,之后继续进行Rigiging(包括重定位等)和模型捕捉(使用第三方提供的高精度结果来驱动模型或者真人驱动等),最终渲染完成,形成虚拟人。
Unity技术开放日
而呈现环节可以分为实时与非实时两类。实时的可在全息表演、AR等技术的成熟发展下,不断提升效果质量;相较于非实时(视频、照片)的虚拟人互动性更强、发展潜力更大。
虚拟人的交互又可分为智能驱动型和真人驱动型两种:
智能驱动型可以通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策虚拟人后续的输出文本,然后驱动人物模型生成相应的语音与动作来使虚拟人跟用户进行互动。人物模型是预先通过AI技术训练得到的,可通过文本驱动生成语音和对应动画,在业内次模型称为TTSA(TextToSpeech&Animation)人物模型。
另外,智能驱动作为虚拟人的一条探索方向,还意图通过深度学习技术打造永不塌房、不知疲倦的虚拟人。
真人驱动型是通过真人来驱动,主要原理是真人根据视频监控系统传来的用户视频,与用户实时语音,同时通过动作捕捉采集系统真人的表情、动作呈现在虚拟数字人形象上,从而与用户进行交互。
《阿丽塔:战斗天使》女主角阿丽塔
真人动作捕捉技术驱动虚拟角色
柳夜熙、A-Soul等虚拟人皆属于真人驱动型。受制于现有的技术水平,AI驱动的虚拟人在制作成本和技术门槛上仍然大大高于真人动捕。
那么,智能驱动我们还差在哪?
虚拟人在互动环节需要实现的感知、理解、决策、表达4大功能。通过下图,我们能更直观的理解目前虚拟人在发展阶段理解和决策是目前最显著的短板。比如,智能虚拟人可以做客服播报,却仍无法实现在自然对话中进行开放式闲聊。
虚拟人在互动环节的技术挑战
图源:网络
依托人工智能,当前智能驱动型虚拟人需要有感知、分析人类行为的能力,高度依赖计算机视觉、自然语言处理、深度学习等技术的发展。这也是虚拟人发展的下一个目标。
不同类型虚拟人的技术发展
图源:网络
虚拟数字人作为创新形态,被业内视作元宇宙概念下技术、内容与产业协同升级的初步尝试。
如今,虚拟人理论和技术日益成熟,未来,会在多个角度突破人类局限,比如生命周期长、行为可控、多线程持久工作、思维和计算能力强,可塑性好等。其相应的应用层也在不断扩大、不断丰富,产业正在逐步形成。
虚拟人的产业链从上到下可分为基础层、平台层和应用层
图源:《2020年虚拟数字人发展白皮书》
百度、腾讯、网易、哔哩哔哩等公司积极布局虚拟人产业。据第三方机构统计数据,2020年哔哩哔哩虚拟主播的直播总营收约为1.8亿元,2021年达5.3亿元。
艾媒咨询预计,2022年我国虚拟人市场规模将达到120亿元,并有望带动1866亿元相关市场。根据速途元宇宙研究院测算,2022年我国虚拟人市场规模同比增速将达到64.5%。