Meta发布VoiceboxAI语音生成模型、仅需2秒声音样本可说6国语言
Meta目前发布了Voicebox AI模型,相对于只能使用文本或图片回复的竞品模型,Voicebox AI模型的优势主要如其名,能够生成用于回复的音频消息。
Voicebox可以制作高质量的音频剪辑并编辑预先录制的音频,例如移除汽车音箱或狗叫声的同时保留音频的内容和风格。该模型也是多语言的,仅需2秒声音样本,可以产生六种语言的语音。
未来像Voicebox这样的多用途生成AI模型可以为元宇宙中的虚拟助手和NPC角色提供自然的声音,也可以让视障人士听到朋友由文本传来转为语音的内容,AI会用他们的声音朗读这些文本消息。
Meta表示,Voicebox具有多功能性,可以实现各种任务,包括:
上下文文本到语音合成:使用短至两秒的音频样本,Voicebox可以匹配音频风格并将其用于文本到语音生成。
语音编辑和降噪:Voicebox可以重新创建被噪音打断的部分语音或替换说错的词,而无需重新录制整个语音。例如,您可以识别被狗叫声打断的一段语音,将其裁剪,然后指示Voicebox重新生成该段内容。
跨语言风格转换:比方说某人以一段英语演讲的内容,Voicebox可以生成他以不同语言演讲的内容。将来可以使用此功能来帮助人们以自然、真实的方式进行交流,即使他们不会说同一种语言。
Diverse speech sampling :从不同的数据中学习后,Voicebox可以生成更能代表人们在现实世界中使用上述六种语言的谈话方式的语音。
Voicebox AI模型的特色,图源Meta
Voicebox AI模型的特色,图源Meta
Meta表示,Voicebox可以为基于AI的虚拟助手或元宇宙中的NPC提供自然而真实的语音效果。而对于无障碍方面而言,Voicebox也可以对声带受损的人群提供一定的协助作用。
不过,Meta表示Voicebox AI模型目前仍处于研发阶段。Meta表示,他们意识到这种人工智能技术在虚假伪造方面,可能会带来潜在危害。事实上,在新闻上也已经听过有些诈骗集团利用与本人几乎一样的声音来进行诈骗的案例出现过了,因此Meta目前正在努力找到一种有效的方式来区分真实语音和由Voicebox生成的音频,在找到解决方案前,暂时不会向公众公开提供。