1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

一个听不见的人,也想要看懂每一个新闻搜狗发布全球首个手语AI合成主播

1987web2023-09-02人工智能AI116
编辑:WXY、yaxin

编辑:WXY、yaxin

【新智元导读】近日,一帮理科生给「段子手」朱广权老师安利了一个手语AI主播。这是全球首个手语AI合成主播,85%的准确率,对全国2700多万听障人士可谓是福音!

在《圣经》中描述过这样一个故事:最早的人们语言相通,准备齐心协力修建一座能够通往天堂的高塔。

此举惊动了上帝,他惊诧并顾忌人类具有如此的超能力,于是想办法阻止人类,于是他悄悄来到人间,改变并区别人类的语言,令他们分散在各处,由于无法相互交流,修建高塔的浩大工程也因此半途而废。

由于上帝在这座城改变了人类的语言,将人们打散,因此这座城被称为「巴别」(混乱的意思),虽然这个故事不可考,但这座半途而废的巴别塔如今正静静地躺在伊拉克巴格达南部的平原上。

随着全球教育程度的不断提升,加之各种人工智能技术的协助,如今操持着各种语言,散落在世界各地的人们之间自由的交流沟通早已不是障碍。

但是在世界上仍然有这样一群人,似乎被遗忘在巴别塔的角落:他们看起来与常人无异,但是在他们的世界里则是一片宁静:没有世界的喧嚣,同时也切断了与其他人正常沟通的渠道。

据统计在全世界有超过4.66亿的人有听力障碍,而截至去年9月,我国达到听力残疾标准的人群数量达到了2780万,占所有残疾人群体的30%。

这还不包括许多在听力上有缺损的人,比如闪耀NBA(美职篮)的中国巨星姚明:他的左耳几乎处于完全失聪的状态。

假如周围环境突然变成一个没有任何字幕的默片,对于任何人而言都不好接受,甚至选择进入与世隔离的「自闭」状态。

可以想见,这个群体与社会和平相处已属不易,更不用说融入这个嘈杂的世界了。

由于听觉受损,所以他们对于外界的视觉信息变得格外敏感,继而创造出他们自己独特的一套语言:手语。

结合手部动作、面部表情,甚至是口型的变化,听障人士打造了一套有别于其他任何一种语言的,完全依靠视觉传达信息的语言系统。它支持残障人士在日常生活中表达自己的想法,以及接收外部信息。

但是这一套独特的语言体系相当于将这一特殊的群体局限在自己的圈子里:他们相互之间可以交流沟通,但是与健听人之间在无形中就被自然分隔在了巴别塔下。

帮助TA们重建「巴别塔」

随着越来越多年轻的听障人士受教育程度不断提升,有不少人已经可以通过文字来从外界传达以及获取信息,但是对于更多的听障人士,比如中老年以及内陆地区的听障人士,看懂文字仍然是一件十分困难的事情。

不仅如此,在诸如银行、机场、车站等公共场所,一些重要的通知通常是通过广播形式进行传递,另外诸如在主要事件的现场直播、大会活动等场景下,听障人士一般都无法获取到重要的信息。

如今智能翻译机器几乎可以毫无障碍地让来自世界任意两个地方的人进行无障碍的沟通,那么有没有一款能够将外部世界与听障人士无缝连接的翻译机呢?

搜狗最近推出的手语AI合成主播就向我们展示了这个可能性。屏幕上一位面带笑容,和蔼可亲的虚拟主播「小聪」,正在通过熟练的手语向大家问好。

简而言之,这位主播可以将「她」所听到的信息以几乎零延迟地效率转化为听障人士能够看懂的手语播报视频。

手语需要手势、表情以及口型结合才能将意思表述完整

这位手语AI合成主播是搜狗AI交互技术部总经理陈伟团队的最新成果。基于搜狗在翻译和虚拟数字人(搜狗分身)交互领域的积累和交叉融合,使得这位手语机器人一方面能够准确听懂健听人的表述,另一方面还能够准确地将健听人表述的意思转化为听障人士看得懂的手语。

搜狗AI交互技术部总经理陈伟

这项技术主要涉及到以下三个主要的技术点:

首先,需要准确听懂健听人表达的信息,并将其转化为文字,这在目前来说已经不算难点;

其次,需要将转化而来的文字依据听障人士的手语体系和语法进行翻译,这对于研发团队而言就是一个不小的挑战。由于手语是一套视觉语言,因此在表述方式上与我们通常逻辑的认知就有很大的不同:

比如语序问题,「开车不许喝酒」在手语中则是要先后表现出「开车」、「喝酒」、「不准」三个手势;

手语也无法展现程度之类的虚词、副词等,比如「大雪」,只能通过更大的身体幅度来体现「大」的含义;

另外手语还是一套「多模态」语系,如之前说到的,听障人士不仅靠手势,同样还需要借助表情和口型协助表达完整的意义。这就意味着这套系统不仅需要将信息转化为手势,还需要对应的表情和口型信息。

第三,驱动「数字人」,将翻译好的信息转化为准确连贯的手部动作、面部表情以及口型。

举个简单的例子,在手语体系中每个词汇都有对应的手势,但是前后不同手势的变换,如何能够如真人一样流畅连贯,对于技术团队而言就是一项不小的挑战。

在研发的过程中,陈伟团队还邀请了中国聋人协会、手语老师以及听障人士三方作为顾问团队,以便于对最新研发成果第一时间进行反馈并协助改进。

最终,在组织的可懂度测评中,邀请的听障人士对于搜狗手语AI合成主播的播报内容可懂度为85%以上,达到了实用水平。

消除「恐怖谷效应」

当数字人无限接近于真人,我们该兴奋还是恐惧?

不久前,由Epic Games旗下公司UnrealEngine开发的一个工具可以让我们随心所欲创造和定制逼真的数字人。

从头发到胡子,从眼神再到嘴形,还有深深的法令纹,看似非常像真人但又总觉得哪里不对劲儿,让我们不得不想起「恐怖谷」效应。

不过,搜狗AI团队本次发布的手语AI合成主播反而并没有让我们感受到数字人是一种「威胁」。

搜狗AI交互技术部总经理陈伟表示,「当你看到一个数字人时,不但没有恐怖谷效应,反而沟通时还有情感连接,这才是做数字人的初衷。」

其实,做卡通人物就会彻底解决恐怖谷问题。为什么搜狗依然会选择做超写实的数字人呢?

搜狗团队在去年做3D数字人的时候,就遇到了难题。数字人在张嘴说话时都看不到声带振动。

甚至有时候,模型做的手势多了,会出现穿帮情况,比如一只手经常突然间插入到一个胳膊里,就会给人一种不真实感,即恐怖感。

再看手语主播「小聪」,外观上结合原力科技的行业最领先3D重光照扫描还原完成的手语数字人高精度模型及采集的动画数据,辅助自研的表情肢体手势捕捉技术,生产出了高度还原真人发肤、形象逼真、动作自然生动的数字人模型。

进一步放大拉近看的话,小聪脸上还会有一些坑坑洼洼的地方,还有一些纹理,这是真人材质必须要具备的能力。

未来一到两年,在手语AI合成主播的3D建模上,很快就会突破恐怖谷。

另一方面,消除恐怖谷效应还需要通过数字人在表达能力上是否有新的突破来进行评估。

因为即便外观看似像一个人,但是无法和人类自然交流,依然会让人害怕。这需要大量数据的「投喂」,来训练更好的模型。

对于手语AI合成主播的研发,搜狗AI团队会把重心放在超写实上,如何让数字人更像真人是他们坚定不移的目标。

「只有数字人越来越像人的时候,我们在人机交互的可能性才能真正做到自然交互,才能真正让我们和数字人有情感连接,这也是我们一直坚持的。」

目前,全球首个手语AI主播「小聪」是对人进行了扫描以后做成的,包括衣服、鞋子、头发、面部,在写实度上已有很大提升。

凭借丰富的数据和不断成熟的算法,「小聪」完美复刻了人类的面貌、表情、动作、声音,甚至是习惯性的动作和语言。

人类翻译即将被AI取代?

手语AI合成主播未来将应用于重要新闻发布、大型会议、活动直播,以及机场、车展等公共信息广播等实时场景,以及文化娱乐、影视作品、影片等非实时场景,来协助听障人士更快、更准确的获取周围的重要信息。这对于听障人士而言,意义重大。

在谈到手语AI合成主播能否翻译朱广权式的段子时,陈伟笑着坦言,目前即便是中英文翻译系统对于类似的语句翻译都很困难,更不用说将其翻译为手语了。

想要达到信、达、雅的境界,仅靠技术手段显然不足以支撑,在这背后是对于语义语境的深刻理解,以及在语言学上的长年积累才能实现的。

因此在翻译行业,尤其是在重要场合,高难度的翻译工作,AI在相当长的一段时间内还无法取代人类的角色。

但是能够让众多的听障人士在这个世界被友好对待,「总体来说这是件功德无量的事」,陈伟欣慰地说道。