使用AI语音识别为视频生成字幕
从PC 13.3版本开始,弹弹play支持通过AI语音识别技术,为视频生成字幕文件。
功能特点
识别率高,普通(Small)模型即可达到>90%的准确率
由 OpenAI Whisper 驱动,识别将完全在本地处理,无需联网
集成在弹弹play播放器中,即开即用,不需要安装 Python 等其他软件
由 CPU 进行处理,对显卡无要求
UI方便简洁,一看即会
使用方法
1. 进入媒体库,右键点击一个视频,选择 [AI语音识别]
FFmpeg:exe文件,约110MB,用来处理音频。
AI模型文件:用来识别音频内容。请根据需求选择要使用的模型,我们推荐使用普通(Small)模型来识别动画,可以在识别率、识别速度中取得不错的平衡。如果对效果不满意可以再换成别的模型尝试。Small模型文件约500MB,Medium模型约1.5GB。
当前「AI语音识别」功能仅在64位弹弹play播放器中提供,UWP版本暂无法使用此功能。
由于模型与算法限制,AI在一段时间后可能会出现幻听现象,即在一段音频内重复识别出错误的结果。弹弹play已使用缓解措施尽量避免此类现象发生,但无法根除。您可能会遇到至多连续30秒的错误识别结果。
* 也可以在播放过程中,在播放器界面点开右键菜单,选择【音频-AI语音识别】,这种方式只能在播放本地视频时使用。
2. 准备必要文件
您需要提前下载两个必要的文件,将其放入指定的文件夹中,才可以继续使用:
3. 选择语言并开始识别
点击下方的 [开始识别] 启动后台识别。弹弹play将首先处理视频中的音频轨道,然后调用 OpenAI Whisper 识别其中的内容。
识别出的内容将不断更新在下方列表中,您可以随时查看。点击 [中断] 按钮可以提前结束识别任务。
识别速度将由您的CPU速度、模型大小共同决定。举例来说,在使用AMD Ryzen™ 7 4800H处理器的笔记本电脑上,选择普通(Small)模型识别一个时长24分钟的TV动画视频,将花费约10分钟时间。音频中的无人声/环境音部分可能会降低识别速度。
4. 生成字幕或导出数据
转换完成后,将自动生成 SRT 格式的字幕文件。您也可以在识别结果处使用 Ctrl/Shift 操作选择多条文本,然后在右键菜单中复制,或是导出到另一个 SRT 字幕文件中。
已知问题