8 月 16 日消息,多媒體框架 FFmpeg 開(kāi)發(fā)團(tuán)隊(duì)發(fā)文,預(yù)熱 FFmpeg 8.0 版本新增一項(xiàng)名為 Whisper 的音頻過(guò)濾器,該功能整合了 OpenAI 的 Whisper 語(yǔ)音識(shí)別模型,通過(guò)內(nèi)建過(guò)濾器機(jī)制,可以自動(dòng)將視頻背景音頻內(nèi)容識(shí)別轉(zhuǎn)換為文字描述,并輸出為字幕或結(jié)構(gòu)化數(shù)據(jù)。
據(jù)介紹,Whisper 過(guò)濾器的實(shí)現(xiàn)依賴 whisper.cpp 庫(kù),用戶需要先在系統(tǒng)中安裝并啟用對(duì)應(yīng)支持庫(kù),并在編譯時(shí)通過(guò)“--enable-whisper”選項(xiàng)激活功能。相應(yīng)過(guò)濾器支持純文本 TXT、SRT、JSON 等輸出模式,同時(shí)可以通過(guò) HTTP 等協(xié)議直接將輸出內(nèi)容傳輸?shù)狡渌到y(tǒng)。如果未指定輸出位置,轉(zhuǎn)錄結(jié)果將作為元數(shù)據(jù)附加在音頻幀上,供后續(xù)處理或分析使用。
官方強(qiáng)調(diào),該過(guò)濾器提供了隊(duì)列參數(shù),用戶可以設(shè)置累積多少音頻數(shù)據(jù)再進(jìn)行識(shí)別,默認(rèn)值約為 3 秒,如果將時(shí)間設(shè)置更長(zhǎng),識(shí)別準(zhǔn)確率則更高 / 處理頻率更低,適合批處理工作場(chǎng)景;如果將時(shí)間設(shè)置更短,則可降低過(guò)濾器處理延遲,適合對(duì)重要音頻內(nèi)容進(jìn)行具體分析和微調(diào)。
此外,Whisper 過(guò)濾器也支持 GPU 加速,結(jié)合 FFmpeg 本身的多線程處理,在高性能環(huán)境下能顯著提升轉(zhuǎn)錄速度。同時(shí)它還支持“Silero 語(yǔ)音活動(dòng)檢測(cè)(VAD)”功能,能在長(zhǎng)音頻流中自動(dòng)切片語(yǔ)音片段,從而進(jìn)一步提升識(shí)別效率和段落準(zhǔn)確度。
本文鏈接:http://www.www897cc.com/showinfo-119-177650-0.html視頻背景音自動(dòng)轉(zhuǎn)為文字描述:多媒體框架 FFmpeg 8.0 引入 OpenAI Whisper 音頻 AI 模型
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: Win11 10 微軟商店更新:用戶已無(wú)法徹底關(guān)閉應(yīng)用自動(dòng)更新,僅允許暫停最長(zhǎng)五周
下一篇: Win11 Dev Beta 預(yù)覽版 26xxx.5751 發(fā)布:文件資源管理器右鍵菜單 UI 調(diào)整、系統(tǒng)托盤新懸停動(dòng)畫