多媒体框架FFmpeg开发团队近日宣布,即将发布的8.0版本将新增名为Whisper的音频过滤器,该功能基于OpenAI的Whisper语音识别模型,可自动识别视频背景音频内容并转换为文字描述,输出为字幕或结构化数据。
用户需提前安装whisper.cpp库,并在编译时启用相应选项。Whisper过滤器支持TXT、SRT、JSON等多种输出格式,并可通过HTTP协议传输结果。默认情况下,转录内容将作为元数据附加至音频帧,便于后续处理。
此外,该功能支持队列参数调整,用户可根据需求平衡识别延迟与准确率,同时兼容GPU加速和多线程处理,显著提升转录效率。结合Silero语音活动检测技术,还能在长音频流中精准切分语音片段,优化识别效果。