FFmpeg即將發布的8.0版本將引入名為Whisper的音訊過濾器,該功能整合了OpenAI的Whisper語音辨識模型,允許開發者在影片轉檔或串流處理流程中直接進行語音轉錄。透過內建過濾器,無需中斷處理流程即可將音訊轉換為文字,並輸出為字幕或結構化資料。此功能依賴whisper.cpp函式庫,支援多種輸出格式(純文字、SRT、JSON)及輸出目標,並可將轉錄結果附加於音訊幀後設資料。過濾器提供佇列參數調整辨識準確度與頻率,支援Silero語音活動偵測(VAD)以提高效率,並可透過GPU加速以提升轉錄速度,極大簡化了影音開發者的工作流程。
🎥 FFmpeg 8.0新增Whisper音訊過濾器,整合OpenAI的Whisper語音辨識模型,實現影音處理流程中的直接語音轉錄。此功能允許開發者在影片轉檔或串流處理時,將音訊內容無縫轉換為文字,並輸出為字幕檔(如SRT)或結構化資料(如JSON),無需額外調用外部工具,大幅簡化了開發流程。
⚙️ Whisper過濾器的實作基於whisper.cpp函式庫,需要編譯時啟用「—enable-whisper」選項。它支援多種輸出格式,包括純文字、SRT字幕格式及JSON,輸出目標可以是儲存為檔案,或透過HTTP等協定直接傳送至其他系統。若未指定輸出位置,轉錄結果會以後設資料形式附加在音訊幀上,方便後續處理或分析。
⏱️ 過濾器提供佇列參數供使用者設定累積多少音訊資料後進行辨識,預設值約為3秒。較長的設定能提高辨識準確度並降低處理頻率,適合批次處理;較短的設定則能降低延遲,適用於即時應用。此外,支援Silero語音活動偵測(VAD),能自動切分長音訊串流中的語音片段,進一步提升辨識效率與段落準確性。
🚀 Whisper過濾器支援GPU加速,並可指定運算裝置編號,結合FFmpeg自身的多執行緒處理能力,在高效能硬體環境下顯著提升語音轉錄的速度,為處理大量影音內容的應用提供了強大的效能支援。
影音處理框架FFmpeg在即將發布的8.0版本中,加入一項名為Whisper的音訊過濾器,讓開發者在影片轉檔或串流處理的流程中,可直接進行語音轉錄。這項功能整合了OpenAI的Whisper語音辨識模型,透過內建的過濾器機制,能在不中斷處理流程的情況下,將音訊內容轉換成文字,並輸出為字幕或結構化資料。
Whisper過濾器的實作仰賴whisper.cpp函式庫,使用者必須先在系統中安裝並啟用對應支援,編譯時以—enable-whisper選項啟用功能。該過濾器支援多種輸出模式,包括純文字、SRT字幕格式及JSON,輸出目標可以是檔案,也能透過HTTP等協定直接送往其他系統。當不指定輸出位置,轉錄結果會以後設資料的形式附加在音訊幀上,供後續處理或分析使用。
Whisper過濾器提供佇列參數讓使用者設定累積多少音訊資料再進行辨識,預設約為3秒。時間設定越長,準確率相對提高且處理頻率降低,適合批次處理,而時間設定越短,則可降低延遲,適合即時應用。過濾器也支援啟用Silero語音活動偵測(VAD),在長音訊串流中自動切分語音片段,提高辨識效率與段落準確度。
Whisper過濾器支援GPU加速,並可指定運算裝置編號,配合FFmpeg本身的多執行緒處理,在高效能環境下提升轉錄速度。
對影音開發者而言,這項更新讓同一條影音處理管線可完成編碼、轉碼與語音轉錄,不需額外呼叫外部工具或進行中間檔案處理,簡化了流程與系統整合工作。無論是影片上傳平臺需要自動產生字幕,還是串流應用想在即時轉播中附加逐字稿,這項功能都能直接嵌入現有FFmpeg工作流程中使用。