1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

使用AI语音识别为视频生成字幕

1987web2023-08-05人工智能AI120
从PC13.3版本开始,弹弹play支持通过AI语音识别技术,为视频生成字幕文件。功能特点识别率高,普通(Small)模型即可达到>90%的准确率由OpenAIWhisper驱动,识别将

从PC 13.3版本开始,弹弹play支持通过AI语音识别技术,为视频生成字幕文件。

功能特点

  • 识别率高,普通(Small)模型即可达到>90%的准确率

  • 由 OpenAI Whisper 驱动,识别将完全在本地处理,无需联网

  • 集成在弹弹play播放器中,即开即用,不需要安装 Python 等其他软件

  • 由 CPU 进行处理,对显卡无要求

  • UI方便简洁,一看即会

使用方法

1. 进入媒体库,右键点击一个视频,选择 [AI语音识别]

    * 也可以在播放过程中,在播放器界面点开右键菜单,选择【音频-AI语音识别】,这种方式只能在播放本地视频时使用。

    2. 准备必要文件

    您需要提前下载两个必要的文件,将其放入指定的文件夹中,才可以继续使用:

    • FFmpeg:exe文件,约110MB,用来处理音频。

    • AI模型文件:用来识别音频内容。请根据需求选择要使用的模型,我们推荐使用普通(Small)模型来识别动画,可以在识别率、识别速度中取得不错的平衡。如果对效果不满意可以再换成别的模型尝试。Small模型文件约500MB,Medium模型约1.5GB。

    3. 选择语言并开始识别

    点击下方的 [开始识别] 启动后台识别。弹弹play将首先处理视频中的音频轨道,然后调用 OpenAI Whisper 识别其中的内容。

    识别出的内容将不断更新在下方列表中,您可以随时查看。点击 [中断] 按钮可以提前结束识别任务。

    识别速度将由您的CPU速度、模型大小共同决定。举例来说,在使用AMD Ryzen™ 7 4800H处理器的笔记本电脑上,选择普通(Small)模型识别一个时长24分钟的TV动画视频,将花费约10分钟时间。音频中的无人声/环境音部分可能会降低识别速度。

    4. 生成字幕或导出数据

    转换完成后,将自动生成 SRT 格式的字幕文件。您也可以在识别结果处使用 Ctrl/Shift 操作选择多条文本,然后在右键菜单中复制,或是导出到另一个 SRT 字幕文件中。

    已知问题

    1. 当前「AI语音识别」功能仅在64位弹弹play播放器中提供,UWP版本暂无法使用此功能。

    2. 由于模型与算法限制,AI在一段时间后可能会出现幻听现象,即在一段音频内重复识别出错误的结果。弹弹play已使用缓解措施尽量避免此类现象发生,但无法根除。您可能会遇到至多连续30秒的错误识别结果。