百度智能云曦灵-AI手语平台来了,千字文本转手语仅需几秒钟
智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 心缘
智东西3月3日报道,今天,百度智能云推出曦灵-AI手语平台,该平台进一步降低手语制作、生成门槛,为2800万听障人士搭建无障碍信息通道。
百度集团副总裁吴甜说:面向公众的演艺型数字人洛天依、银行等公告场所的服务型数字人,越来越多出现在我们的生活中。
现在数字人形象、动作、服务的背后是一系列的AI技术,百度智能云熙灵-AI手语平台通过跨模态创新、技术加持,降低手语翻译的部署成本、提高部署效率。
现场,百度智能云曦灵数字人平台打造的首个AI手语主播担任主持人,该手语主播此前已经在冬奥会上线,为听障人士提供24小时手语翻译服务。
百度智能云曦灵数字人平台打造的首个AI手语主播
去年百度智能云数字人平台百度智能云曦灵已经上线,在数字人生成、运营上带来低成本的技术支撑。
如今,百度智能云曦灵-AI手语平台发布,面向更加垂直、少数的听障群体,用技术为公益赋能。
一、手语数字人平台小时级部署,插电即用
百度智能云曦灵-AI手语平台由AI手语平台和AI手语平台一体机组成,可以实现线上小时级部署。AI手语平台一体机包括V3全离线一体机和P3端云结合一体机,线下插电即用。
AI手语平台一体机
百度智能云AI人机交互实验室负责人李世岩说,百度智能云曦灵-AI手语平台包含五大特性,分别是听得清、翻得准、打得好、部署快、产出快。
为了将视频、语音准确翻译为文本,百度智能云打造了SMLTA语音识别算法模型,它能准确识别语音数据,手语翻译识别准确率达到98%。
研究人员利用手语翻译引擎,打造自然手语NLP手语翻译模型,基于国家手语语法规则,并和国家手语专家组合作,生成近千万自然手语语料句子作为训练数据。
百度智能云曦灵-AI手语平台通过数字人驱动引擎,将人像渲染、动作引擎、口型驱动、表情驱动联动运行,还为手语表现专门设计动作融合算法,带来更接近真人手语表达的连贯表现。
动作融合算法
在保证手语识别准确的基础上,百度智能云熙灵-AI手语平台能够达到小时级部署、分钟级生产实时手语合成视频。
李世岩说,我国的手语翻译人数与听障人群的比例为1:2080,大多数听障人群与社会存在信息鸿沟。
《无障碍环境建设十四五实施方案》与《广播电视和网络视听十四五科技发展规划》都提出了对信息无障碍、AI无障碍播报的关注。
手语不同于说话,它是一种视觉语言,汉语中我们可能直接说出猫抓老鼠,但视觉语音相对反应更慢,需要先看到猫、老鼠,再看到抓的动作,才能准确将信息传达出来。
因此,百度手语数字人整合全链路的AI能力,语音、视频数据需要通过语音识别引擎转变为汉语文本,然后通过翻译引擎转化为手语码,在数字人动作融合算法加持下,生成听得清、翻得准、打得好的手语视频。
目前手语问题的三大挑战是部署难、数据少、要求高。
首先,火车站、机场、医院等都是听障人士的需求场景,但实际生活的场景环境多元,网络环境、声学环境更加复杂。
其次,手语是一种真正的小语种,其数据量少,使得手语数字人翻译质量的提升受限。
第三,手语的语义表达和健听人的语言不同,因此在打造手语翻译系统时不仅要追求高效率,还要保证手语翻译的准确性。
因此,手语翻译平台的部署速度、成本要求都更高。
二、线上、线下场景优化,实时、精准手语翻译
百度智能云曦灵-AI手语平台具有四大功能,分别是视频手语合成、直接手语合成、文本转手语、语音转手语,针对线上、线下场景进行优化。
在线上场景,为了满足图文、视频、直播三类形式,百度智能云熙灵-AI手语平台针对不同数据进行了适配和优化,包括用于新闻、电影、电视剧等场景的视频手语合成,支持新闻、文档、小说等多种图文场景,以及赛事直播、实事直播等场景。
值得一提的是,百度智能云曦灵-AI手语平台中千字文本转手语合成仅需要几秒钟。
文本转手语
目前,线上版本已经在央视新闻客户端上应用,目前已经生成200多条手语视频,总观看次数超1亿次。
除去线上场景,线下场景对无障碍窗口需求也很迫切。
根据2015年《中国聋人群体手语翻译需求与翻译服务现状研究》,火车站手语翻译窗口购票服务仅有2.75%的听障人士顺利购买到火车票,在医院就医中有3.56%的听障用户会因为沟通不方便拒绝前往医院就医。
因此,部署快、成本低的无障碍设施部署尤为重要,百度智能云熙灵-AI手语平台能够快速实现无障碍窗口的建设。
三、构建手语翻译模型,主攻三大难点
最后,天津理工大学聋人工学院副院长袁甜甜、百度语音技术部总监高亮、百度人工智能技术委员会主席何中军针对产品技术领先性进行了深度解读。
天津理工大学聋人工学院副院长袁甜甜、百度语音技术部总监高亮、百度人工智能技术委员会主席何中军圆桌论坛
袁甜甜说,他们和聋人学生的沟通交流过程中发现,听障学生和健听人缺乏有效的沟通交流手段,沟通过程中会有恐惧心理,通过人工智能技术辅助沟通是一种很好的方法。
从百度智能云曦灵-AI手语平台的特性出发,听得清和百度AI的语音技术分不开。高亮称,解决直播场景下的实时问题是关键,AI手语平台中数字人的识别是连续的,要做到又快又准,会对模型要求更高。百度智能云采用最新的语音大模型技术,为了在实时识别的同时做到更高的准确性。
何中军谈道,手语翻译其实比传统文本翻译更难,语音处理、文本翻译、视觉技术,具体到文本转到手语码有三大难点,第一个是顺序不同,表达上不一致,需要调整语序;第二个是词汇不一样,通用手语词典中仅有8000个词,远远少于实际应用中的词汇;第三个是说话的语序更快,手语识别中需要精炼语言,保证实时性。
百度智能云平台基于机器翻译技术的积累,构建手语翻译模型,从真实的训练数据中,自动学习识别对手语翻译视频的长度控制、语音识别,形成连贯的手语翻译句子。
在实际应用中,手语翻译更常见的是手势汉语,也就是依照正常人的说话语序将词语、句子通过手势表达出来,但自然手语才是更符合听障人士阅读习惯的用法,需要调整语序,省略不必要的词汇,表达更加准确、凝练。
何中军说,现有的机器学习技术都是基于大数据,但自然手语数据库特别少,可以用于训练的手语数据几乎没有,因此研究人员成立了一个手语专项项目,和天津理工大学的听障学生合作,标注大量真实数据,再加上先进的算法,才达到了现在的效果。
在听障人士的表达中,表情、肢体动作和手势同等重要,袁甜甜补充道,百度智能云曦灵-AI手语平台通过融合的、多信道的表达方式,才更符合听障人士的表达习惯。
结语:搭建AI技术和无障碍沟通的桥梁
用AI驱动手语翻译视频生成,可以进一步降低手语翻译的技术门槛,并且百度智能云致力于将授予数字人覆盖至广电、金融、出行、医疗、政企、文旅等多个场景,从多维度为听障人群带来便利。
百度智能云曦灵-AI手语平台针对不同场景,构建语音交互模式、专业术语识别等,在更加专业垂直的领域,促进AI手语平台的适配度,让手语数字人为更多听障人士架起沟通桥梁。
-
上一篇
这位数字人是由百度智能云曦灵数字人平台打造的首个AI手语主播。她形象亲切自然,专业能力出色,在刚刚开启的冰雪赛事中,百度智能云AI手语主播已经上线,为听障用户提供24小时的手语服务,让他们也能快捷地获取赛事资讯。
(AI手语主播)
据统计,全球约有4.3亿人患中度及以上听力障碍,根据全国第二次残疾人抽样调查数据,中国有听障人士2780万。他们虽然听不到赛场的声音,但同样希望感受赛事的精彩。AI手语数字人无疑成为了他们观赛的重要桥梁。
百度集团副总裁吴甜表示:百度已发布集数字人生产、内容创作、业务配置服务为一体的智能数字人平台——百度智能云曦灵,百度希望通过领先的全栈AI能力,把虚拟人的生产周期缩短到小时级别,降低生产成本,并且用AI驱动生成内容。
研发一款AI手语主播有多难?
手语数字人的本质是在解决翻译问题。
区别于传统翻译,手语翻译的难点在于:手语并非按照语言逐字翻译,而需要根据语句整体意思进行语言精炼和语序调整,同时还需实时配合表情和唇语,帮助听障者更好的理解。这就导致AI手语数字人在信息凝练度、低时延和精细化三方面面临极其复杂的技术难题。因此,AI手语主播不仅需要具备高精度的数字人形象,还需要具备能够语音识别、手语翻译和手语表达的AI大脑。
(AI手语主播面部细节图)
从外形看,对比以往AI主播形象,百度智能云打造的AI手语主播不仅高度还原真人发肤,且在立体感、灵活度、可塑性上都有大幅提升。据悉,百度智能云建立了规模庞大的手语动作库,基于《国家通用手语词典》规范,结合动作捕捉设备和真实手语老师的双向调优,精修近1万个手语动作,保证了手语表达的动作准确性。同时其4D扫描技术,使得AI手语主播表情自然生动,口型生成准确度高达98.5%。
而她的AI大脑则依托于百度智能云。通过百度自主研发的机器翻译技术,百度智能云构建出⼀套精确的手语翻译引擎,可懂度达到85%以上,媲美主流的中英、中日等方向的机器翻译结果,达到业界领先水平,结合百度自研的语音识别技术,可将冰雪赛事的文字及音视频内容,快速精准的转化为手语;同时再通过专为手语优化的自然动作引擎,完成AI手语主播的动作驱动,实时演绎为数字人的动作、表情和唇语。这保证了AI手语主播具备高可懂度的手语表达能力和精准连贯的呈现效果。
据了解,如此复杂的数字人研发工作,百度只用了不到2个月。百度方面表示,虚拟数字人要为人类提供服务、与人自然地交流,需要背后强大的知识体系和对话能力支撑。百度知识图谱积累的5500亿知识,帮助数字人拥有自己的经验和认识去思考。基于百度去年发布的百亿参数对话模型PLATO,虚拟人可以跟用户进行有料、有趣、有情感的交流。
百度智能云曦灵数字人平台:半小时生成2D数字人、一两周制作完成3D数字人
朱广权迎手语新搭档?百度智能云AI手语主播正式上岗
近日,一则段子手朱广权与手语主播在线pk的视频火了,刚刚上线播放量就突破百万。视频中,朱广权用超快语速的顺口溜挑战手语主播的手速,而这位手语主播也凭过硬的专业能
- 下一篇
她有着真人般的皮肤、头发、眼睛,形象亲切自然,气质优雅独特。
首个“冬奥AI手语主播”来了!央视新闻联合百度智能云打造