如何快速制作虚拟数字人面部动画,一段音频即可
忘不了你的爱,但结局难更改……,一曲《男孩》唤起了许多人对校园生活的美好回忆,也让盘腿而坐,抱着吉他唱着《男孩》的清华大学学生华智冰迅速出圈。而抖音美妆达人柳夜熙,凭借流畅生动的妆容分享,圈粉无数,更是一跃成为虚拟人中的带货一姐。
除此之外,还有拍了VogueMe杂志,上了央视综艺,接了特斯拉代言的打工人翎Ling,跨年演唱会上与周深同唱《小城故事》的邓丽君,湖南卫视全新综艺《你好,星期六》启用的数字主持人小漾......,各种形象、各种功能的虚拟数字人已经不知不觉地走进了我们的生活。
而为了让这些虚拟数字人更真实和自然,不仅需要以假乱真的建模技术,还需要在表情、动作以及交互能力上进行提升,这对虚拟数字人的制作提出了较高要求。
NVIDIA研究团队开发了一项黑科技,仅需一个音频来源,即可快速轻松生成表情丰富的面部动画,从而能够帮助开发者和内容创作者制作出更加自然的虚拟数字人。
01
虚拟数字人面临
表情和互动不够自然的困境
随着元宇宙概念的大热,以及疫情叠加下人们对数字生活需求的增加,虚拟数字人的发展步入了快车道,出现了很多类似于华智冰、柳夜熙、翎Ling等超写实虚拟数字人。
而人与这些虚拟数字人最大的区别是有感情、能够体会到喜怒哀乐,且能够把喜怒哀乐实时地通过语言、表情等来体现。而虚拟数字人不具备自然表达的能力,这使得虚拟数字人被吐槽一眼假、不够真实。
如果想为虚拟数字人引入最接近人的喜怒哀乐,且具有实时的交互能力,不仅要进行配音、口形适配,还要考虑当前的语态、语境,进行面部表情分离,并重新渲染面部表情。
过去常通过面捕技术来驱动虚拟数字人面部与嘴型的变化,整个环节非常复杂,时间、人力、物力成本巨大。开发者和内容创作者亟需成本更低、开发更简便的工具来降低虚拟数字人的制作门槛和成本。
02
仅需一个音频
实时生成虚拟数字人面部动画
随着虚拟数字人的不断发展,AI技术成为制作虚拟数字人的重要工具。去年,NVIDIA 在其 Omniverse 平台上推出了 Audio2Face 功能,可以让大家轻松地为虚拟数字人制作面部动画。现在扫码下方的二维码就可以观看 Omniverse™ Audio2Face 动画演示:只需单击按钮即可为面部动作设置动画效果。
Omniverse 是 NVIDIA 的实时3D设计协作和虚拟世界模拟平台,不仅能够加速各种复杂的3D工作流程(涵盖从概念构思到最终交付的各个工作流程),还能够以突破性的新方式实现先进创意和创新的可视化、仿真和编码。
而 Omniverse™ Audio2Face 则是一个经过人工智能训练的工具,仅需一个音频来源(离线语音录音或实时音频),就能立即为虚拟数字人生成富有表现力的面部动画。
此外,Audio2Face 可简化3D角色的动画制作,与任何配音音轨匹配,无论是为游戏、电影制作动画角色,还是单纯为了获得乐趣,都可以使用;还可以将其用于实时互动,或作为传统的脸部动画创作工具使用。
03
全流程+低代码
助力虚拟数字人制作便捷化
作为加速虚拟数字人制作的有力工具,Omniverse™ Audio2Face 整体的运作方式如何呢?具体如下图所示:
Audio2Face 预先载入名为Digital Mark的3D角色模型。此模型可按照音轨进行动画处理,用户只需要选取音频并上传至应用程序即可。该应用会将音频输入馈送到经过预训练的深度神经网络,然后根据神经网络输出的内容,调整角色网格的3D顶点,以实时创建面部动画。同时,使用者还可以选择编辑各种后制参数来优化角色的呈现效果。此外,使用者也可以逐步引导虚拟数字人的情绪,像快乐、惊奇、愤怒和悲伤等关键情绪都可轻松混合。
上面也体现了 Omniverse™ Audio2Face 的两个特点:全流程和低代码。开发者甚至不需要掌握专业的知识,就可以完成一个虚拟数字人的制作。此外,Omniverse™ Audio2Face 还有以下几个亮点功能:
1、音频输入:使用录音或实时制作动画
输入的音频,既可以是录制好的语音音轨,也可以是通过麦克风实时输出的音轨。Omniverse™ Audio2Face 都能够按照这些音轨实时制作动画。
Audio2Face 还能够轻松处理任何语言。此外,它还将不断更新该应用,使其能够处理越来越多的语言。
2、角色转移:瞬间换脸
由于Audio2Face 预先载有Digital Mark的3D角色模型,所以它可以生成任何风格的人物角色或拟人角色的脸部动画。除了虚拟数字人外,风格化虚拟角色,甚至是动物、外星人都适用。
3、扩展输出:多音轨生成多个动画
Omniverse™ Audio2Face 还可以同时执行多个动画生成,如在对话的二人组、清唱的三人组和协调一致的四人组等,为虚拟数字人的歌唱注入生命与声音。使用者也可以对每个面部表情的细腻程度进行调整,并从多个音频源批量输出多个动画文件。
4、数据转换:连接和转换
Omniverse™ Audio2Face 不仅支持 BlendShape 转换,还支持 Blendweight 导出选项。此外,Audio2Face 也支持通过 Epic Games UE 4 执行导出与导入工作流程,使用 Omniverse UE 4连接器生成超人类角色的动作。
5、情感控制:选择不同的情绪生成
除了说话外,Omniverse™ Audio2Face 还可以打造各种情绪的角色动画。神经网络会自动操纵脸部、眼睛、嘴部、舌头和头部运动,以匹配使用者选择的情绪范围和定制的情绪强度水平,或自动直接从音频剪辑中推断情绪。
6、Audio2Emotion:通过音频文件生成逼真的面部表情
这是近期推出的一项新功能,让能够从音频片段中推断情感的AI自动为面部动画设置关键帧,从而控制虚拟形象的情感表达。
7、全脸动画:全脸器官的动画生成
Omniverse™ Audio2Face 除了能够让使用者管理虚拟数字人的皮肤以外,还可以对其眼睛、牙齿和舌头的运动进行管理,以便制作更完整的面部动画。
8、角色设置:更精细的角色换脸
角色转换重定向工具现可支持全脸动画,并提供易于使用的工具,用于定义构成眼睛、牙齿和舌头的网格。
04
AI驱动的
超写实虚拟数字人将加速普及
近年来,AI在虚拟数字人生成和驱动上展现了较高的效率。过去由CG+动捕+Vocaloid语音合成方式,制作的虚拟数字人面容、身体、声音、动作,现在均由AI来实现。而这类虚拟数字人具有真人质感、辨识度高、互动性强的特点,是更接近人形的超写实虚拟数字人。
作为 NVIDIA 研究团队的重要成果之一,Omniverse™ Audio2Face 可以使虚拟数字人的开发门槛和制作成本迅速降低,让开发者和内容创作者参与其中,加速虚拟数字人在更多场景的应用和普及。