搜狗AI交互技术部总经理陈伟:手语AI合成主播可实时应用,反应耗时约1秒
蓝鲸TMT频道5月19日讯,今日,搜狗AI交互技术部总经理陈伟在接受采访时表示,现在手语AI合成主播整个流程跑下来是接近实时应用的状态,差不多耗时1秒钟。
5月17日,搜狗发布最新一代分身数字人——全球首个手语AI合成主播小聪,打造听障人士可懂的通用手语播报。据悉,手语表达方面,小聪基于《国家通用手语词典》,能够实现健听人语言与听障者手语语言的机器翻译能力。
陈伟表示,搜狗解决的问题是把健听人的语言体系转化为聋人可理解的语言体系,即手语体系。让聋人接受信息,一个是看他怎么把信息表达出来,二是看如何让他接受更多的外界信息。所以,我们用可懂度的方式来评估现在的手语效果。我们定期会组织人工测试,在面向常用口语类使用情景,手语AI合成主播差不多能达到85%左右的可懂度。
据介绍,本次手语数字人完整实现了手控信息以及非手控信息的表达,首先通过机器翻译生成手语表征信息,覆盖了手部动作、面部表情、口动等维度,之后基于多模态端到端生成模型进行联合建模及预测,生成动作、表情、唇动等序列,从而产生地道、接受度更高的手语表达效果。
除了手语AI合成主播,搜狗还联合搜狐新闻客户端推出首个明星数字人主播,以明星柳岩为原型。搜狗公司CEO王小川表示,给行业人士去制造他们的分身,让他们的知识能力拓展到不止一个肉身去工作,同时让他一天24小时无休地做更多的服务。在行业当中今天有另一个走向是偶像,是打造一个虚拟的情感和崇拜能力,解决行业效率提升的问题。
陈伟透露,从数字人的研发到工程服务全部完成到上线花了一个多月的时间。柳岩花费了两个半天的时候录了声音和形象,后续在数字标注上花了30、40%的时间,剩下的时间是技术的研发和迭代。这次碰到的问题会相对较难,我们第一次把多方言、多语言驱动的能力给‘数字人’赋能。
陈伟在采访中表示,目前数字人在广电和媒体行业应用比较好。最近,我们在金融、客服这两个行业做得比较多,这几年陆陆续续跟保险、证券、银行、信贷领域都做到了行业首个客服‘数字人’的应用,比如说在信贷领域,我们跟平安普惠合作的面审的客服,已经上线两年多了。
本文源自蓝鲸财经