8 月 16 日消息,多媒體框架 FFmpeg 開發團隊發文,預熱 FFmpeg 8.0 版本新增一項名為 Whisper 的音頻過濾器,該功能整合了 OpenAI 的 Whisper 語音識別模型,通過內建過濾器機制,可以自動將視頻背景音頻內容識別轉換為文字描述,并輸出為字幕或結構化數據。
據介紹,Whisper 過濾器的實現依賴 whisper.cpp 庫,用戶需要先在系統中安裝并啟用對應支持庫,并在編譯時通過“--enable-whisper”選項激活功能。相應過濾器支持純文本 TXT、SRT、JSON 等輸出模式,同時可以通過 HTTP 等協議直接將輸出內容傳輸到其他系統。如果未指定輸出位置,轉錄結果將作為元數據附加在音頻幀上,供后續處理或分析使用。
官方強調,該過濾器提供了隊列參數,用戶可以設置累積多少音頻數據再進行識別,默認值約為 3 秒,如果將時間設置更長,識別準確率則更高 / 處理頻率更低,適合批處理工作場景;如果將時間設置更短,則可降低過濾器處理延遲,適合對重要音頻內容進行具體分析和微調。
此外,Whisper 過濾器也支持 GPU 加速,結合 FFmpeg 本身的多線程處理,在高性能環境下能顯著提升轉錄速度。同時它還支持“Silero 語音活動檢測(VAD)”功能,能在長音頻流中自動切片語音片段,從而進一步提升識別效率和段落準確度。
本文鏈接:http://www.www897cc.com/showinfo-119-177650-0.html視頻背景音自動轉為文字描述:多媒體框架 FFmpeg 8.0 引入 OpenAI Whisper 音頻 AI 模型
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: Win11 10 微軟商店更新:用戶已無法徹底關閉應用自動更新,僅允許暫停最長五周
下一篇: Win11 Dev Beta 預覽版 26xxx.5751 發布:文件資源管理器右鍵菜單 UI 調整、系統托盤新懸停動畫