揭秘搜狗手语AI合成主播背后:跨越语言沟通的“鸿沟”
搜狗,在超写实3D数字人领域,再次开创新局。5月17日,全球首个手语AI合成主播小聪正式发布,成为了一次新的技术突破。与搜狗以往的3D AI合成主播不同,这次小聪不需要穿越摄影棚口播新闻,也无需真人原型进行形象数据采集,只通过灵活的手势动作和表情,为听障者提供无声的沟通。
背后,是搜狗长期研发的AI分身技术,结合3D重光照扫描还原和动画数据采集,辅以表情肢体手势捕捉技术,生产出高度还原真人形象的手语数字人模型。这为手语主播带来了三大技术优势:首先,数字人写实度大幅提升,提升了手语播报的真实感和用户体验;其次,手语表达能力得到优化,基于通用手语词典生成高可懂度的手语语言表征,以及多模态生成技术预测生成动作、表情和唇动等,使手语展现更加丰富;第三,通过3D建模技术和AI实时驱动,实现了连续大幅手部动作的自然生成,提升了手语AI合成主播的动作表达能力。
然而,手语AI合成主播技术也面临着挑战。手语语言体系的独特性,使得数据挖掘和算法训练变得复杂。同时,数字人技术在实现恐怖谷效应和非手控信息表达方面面临挑战。搜狗AI交互团队积极解决这些问题,不断优化迭代手语AI合成主播的技术,预计今年第四季度将实现规模应用。
对于小聪的落地方向,搜狗将在实时场景和非实时场景两个方向推进。在实时场景中,搜狗将探索人机交互与多模态动作的结合,为听障人士提供自主交流的便利。在非实时场景中,搜狗将与更多电视媒体和内容团队合作,通过小聪将视频和文字内容视频化,帮助听障人群更好地接收信息,融入社会生活。
如果不仔细看,应该很难看出这竟是一位AI手语主播。这位主播不仅颜值高,气质佳,业务能力看起来也十分了得,能播报新闻,还能进行赛事手语直播。她就是我国针对2700余万听障人士打造的首位AI手语主播。
这位主播的打造主要利用语音识别技术和自然语言处理等人工智能技术,来构建出手语翻译引擎,再把文字、语音和音视频内容翻译成《国家通用手语词典》中的标准手语,通过自然动作引擎的优化进行虚拟形象的驱动,这样一来,AI主播的动作、表情会非常精准连贯。
AI手语主播一亮相,网友们都交口称赞:
这真是一个科技发展带来的温情脉脉的时刻,是人工智能对人类的反哺;
人工智能发展越来越快,但也越来越有温度了;
这一次被AI暖到了,连少数群体都照顾到了。
在科技越来越发达的今天,越有温度的科技越打动人心。
贝尔科教作为一个用AI育人,育AI人的创意科教企业也一直在做有温度的教育,用有趣有爱的方式育人,不仅让孩子学到人工智能相关的知识和技术,更要让孩子在AI时代成长为一个有爱、有温度的人。
在贝尔编程造物节上,有一款贝尔自研的机器人——Thunbot AI互动手臂,无论到哪它都能slay全场。这款曾被央视新闻报道过的作品,不仅让小朋友们大开眼界,更让孩子们深刻体会到AI技术的强悍,它确确实实能够有效帮助、影响人类的生活。
Thunbot AI互动手臂主要是模仿人类的手部功能活动,是由Thunbot机械手掌、AI 摄像头、AI 识别算法软件、高性能电脑及显示大屏等软硬件组成的人工智能视觉算法系统。
该系统由 AI 摄像头结合电脑的人工智能算法平台进行手势识别,系统不断采集五根手指骨骼位置,将视觉信息转化成骨骼数据输入机械手的控制器中,控制器将骨骼数据转换为控制代码驱动机械手上 7 个舵机的运动,从而实现人体手势实时控制机械手臂的运动。
通过观察、互动以及现场老师的讲解,小朋友们不仅体验到了前沿科技的魅力,也明白了AI仿生科学对人类生活的帮助,尤其是对残障人士的意义。
在贝尔日常的课程中,贝尔也融入了很多人性化的主题。比如,让孩子尝试为视障人士设计智能导盲杖,为行动不便的人士改造智能轮椅,或是为爷爷奶奶设计智能晾衣架,从生活本身引导孩子从人性化的角度出发思考问题,进行科学探索。