请输入关键字词

热门标签排行

网友热搜词排行

您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

使用AI语音识别为视频生成字幕

1987web2023-08-05人工智能AI292

从PC13.3版本开始，弹弹play支持通过AI语音识别技术，为视频生成字幕文件。功能特点识别率高，普通（Small）模型即可达到>90%的准确率由OpenAIWhisper驱动，识别将

从PC 13.3版本开始，弹弹play支持通过AI语音识别技术，为视频生成字幕文件。

功能特点

识别率高，普通（Small）模型即可达到>90%的准确率
由 OpenAI Whisper 驱动，识别将完全在本地处理，无需联网
集成在弹弹play播放器中，即开即用，不需要安装 Python 等其他软件
由 CPU 进行处理，对显卡无要求
UI方便简洁，一看即会

使用方法

1. 进入媒体库，右键点击一个视频，选择 [AI语音识别]

* 也可以在播放过程中，在播放器界面点开右键菜单，选择【音频-AI语音识别】，这种方式只能在播放本地视频时使用。

2. 准备必要文件

您需要提前下载两个必要的文件，将其放入指定的文件夹中，才可以继续使用：

FFmpeg：exe文件，约110MB，用来处理音频。
AI模型文件：用来识别音频内容。请根据需求选择要使用的模型，我们推荐使用普通（Small）模型来识别动画，可以在识别率、识别速度中取得不错的平衡。如果对效果不满意可以再换成别的模型尝试。Small模型文件约500MB，Medium模型约1.5GB。

3. 选择语言并开始识别

点击下方的 [开始识别] 启动后台识别。弹弹play将首先处理视频中的音频轨道，然后调用 OpenAI Whisper 识别其中的内容。

识别出的内容将不断更新在下方列表中，您可以随时查看。点击 [中断] 按钮可以提前结束识别任务。

识别速度将由您的CPU速度、模型大小共同决定。举例来说，在使用AMD Ryzen™ 7 4800H处理器的笔记本电脑上，选择普通（Small）模型识别一个时长24分钟的TV动画视频，将花费约10分钟时间。音频中的无人声/环境音部分可能会降低识别速度。

4. 生成字幕或导出数据

转换完成后，将自动生成 SRT 格式的字幕文件。您也可以在识别结果处使用 Ctrl/Shift 操作选择多条文本，然后在右键菜单中复制，或是导出到另一个 SRT 字幕文件中。

已知问题

当前「AI语音识别」功能仅在64位弹弹play播放器中提供，UWP版本暂无法使用此功能。
由于模型与算法限制，AI在一段时间后可能会出现幻听现象，即在一段音频内重复识别出错误的结果。弹弹play已使用缓解措施尽量避免此类现象发生，但无法根除。您可能会遇到至多连续30秒的错误识别结果。

相关文章