
FasterWhisperGUI國(guó)內(nèi)開發(fā)者整合的語音轉(zhuǎn)字幕神器
因?yàn)閲?guó)內(nèi)禁了HuggingFace,所以我最近在部署fast-whisper-web時(shí)遇到了麻煩。轉(zhuǎn)而找到了一個(gè)國(guó)內(nèi)開發(fā)者CheshireCC整合的開源項(xiàng)目:faster-whisper-GUI。
不得不說:雖然很多技術(shù)源頭來自國(guó)外開發(fā),但國(guó)內(nèi)開發(fā)者卻能把這些技術(shù)整合出花樣來。faster-whisper-GUI就把Demucs、fast-whisper、whisperX這三個(gè)項(xiàng)目整合到了一起。你不得不說作者很有創(chuàng)意:為了減少人聲轉(zhuǎn)字幕背景音的干擾,直接把人聲提取工具Demucs也整合進(jìn)來了。語音轉(zhuǎn)文字則使用的是whisper的衍生項(xiàng)目faster-whisper,提取速度更快對(duì)顯卡的要求更低。最終字幕輸出則用到了whisperX。
在使用faster-whisper-GUI前要切換到模型頁(yè)面,加載faster-whisper模型。作者直接推薦用large模型進(jìn)行處理,我用RTX2060S測(cè)試了一下,速度還是挺快的,所以中端顯卡即使用large模型也不用擔(dān)心速度。
然后切換回主界面,如果你想對(duì)音頻做一個(gè)人聲分離再處理,可以用到Demucs,事實(shí)上faster-whisper在這一塊做的已經(jīng)足夠好,直接進(jìn)入faster-whisper進(jìn)行語音轉(zhuǎn)字幕即可。
在轉(zhuǎn)寫時(shí)模型可自動(dòng)識(shí)別語言類型,但是還是建議提前在fast-whisper的參數(shù)頁(yè)選擇好語種。
然后運(yùn)行轉(zhuǎn)寫就可以看到語音識(shí)別出臺(tái)詞了(不知道大家看臺(tái)詞能不能猜出我用的案例是哪部電影)。
處理完后會(huì)切換到WhisperX進(jìn)行字幕輸出,通過WhisperX可以對(duì)輸出的文件類型和編碼等進(jìn)行設(shè)置,然后就可以導(dǎo)出字幕或者文本文件了。
faster-whisper-GUI其實(shí)是一個(gè)整合項(xiàng)目,整合了faster-whisper0.9、whisperX3.1.1、Demucs4.0。
雖然我一般更偏向于用原生項(xiàng)目,畢竟原生項(xiàng)目更新更及時(shí),而整合項(xiàng)目畢竟容易有爛尾風(fēng)險(xiǎn)。但是在HuggingFace被禁的大背景下,一些整合項(xiàng)目不僅實(shí)用也是大家最省事的解決方案。
下載地址:https://pan.quark.cn/s/b2423764b018#/list/share
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 習(xí)近平接見新疆各族各界代表 7904780
- 2 樺加沙風(fēng)眼內(nèi)部曝光 拍攝部門:震撼 7807853
- 3 飛機(jī)狂風(fēng)中降落 機(jī)翼險(xiǎn)些砸地 7714074
- 4 援疆的山海深情 跨越千里萬里 7616595
- 5 馬克龍被美警察攔下 當(dāng)場(chǎng)打給特朗普 7520039
- 6 臺(tái)風(fēng)“樺加沙”影響有多大?解讀來了 7425500
- 7 深圳機(jī)場(chǎng)飛機(jī)被“五花大綁”防臺(tái)風(fēng) 7329421
- 8 盒馬最難吃甜品被臺(tái)風(fēng)選出來了 7237600
- 9 上海再通報(bào)多校午餐發(fā)臭:涉嫌瞞報(bào) 7136914
- 10 醫(yī)院通報(bào)“CT報(bào)告單現(xiàn)不文明用語” 7039811