
FasterWhisperGUI國(guó)內(nèi)開發(fā)者整合的語音轉(zhuǎn)字幕神器
聲明:該文章由作者(funnyg)發(fā)表,轉(zhuǎn)載此文章須經(jīng)作者同意并請(qǐng)附上出處(0XUCN)及本頁(yè)鏈接。。
因?yàn)閲?guó)內(nèi)禁了HuggingFace,所以我最近在部署fast-whisper-web時(shí)遇到了麻煩。轉(zhuǎn)而找到了一個(gè)國(guó)內(nèi)開發(fā)者CheshireCC整合的開源項(xiàng)目:faster-whisper-GUI。
不得不說:雖然很多技術(shù)源頭來自國(guó)外開發(fā),但國(guó)內(nèi)開發(fā)者卻能把這些技術(shù)整合出花樣來。faster-whisper-GUI就把Demucs、fast-whisper、whisperX這三個(gè)項(xiàng)目整合到了一起。你不得不說作者很有創(chuàng)意:為了減少人聲轉(zhuǎn)字幕背景音的干擾,直接把人聲提取工具Demucs也整合進(jìn)來了。語音轉(zhuǎn)文字則使用的是whisper的衍生項(xiàng)目faster-whisper,提取速度更快對(duì)顯卡的要求更低。最終字幕輸出則用到了whisperX。
在使用faster-whisper-GUI前要切換到模型頁(yè)面,加載faster-whisper模型。作者直接推薦用large模型進(jìn)行處理,我用RTX2060S測(cè)試了一下,速度還是挺快的,所以中端顯卡即使用large模型也不用擔(dān)心速度。
然后切換回主界面,如果你想對(duì)音頻做一個(gè)人聲分離再處理,可以用到Demucs,事實(shí)上faster-whisper在這一塊做的已經(jīng)足夠好,直接進(jìn)入faster-whisper進(jìn)行語音轉(zhuǎn)字幕即可。
在轉(zhuǎn)寫時(shí)模型可自動(dòng)識(shí)別語言類型,但是還是建議提前在fast-whisper的參數(shù)頁(yè)選擇好語種。
然后運(yùn)行轉(zhuǎn)寫就可以看到語音識(shí)別出臺(tái)詞了(不知道大家看臺(tái)詞能不能猜出我用的案例是哪部電影)。
處理完后會(huì)切換到WhisperX進(jìn)行字幕輸出,通過WhisperX可以對(duì)輸出的文件類型和編碼等進(jìn)行設(shè)置,然后就可以導(dǎo)出字幕或者文本文件了。
faster-whisper-GUI其實(shí)是一個(gè)整合項(xiàng)目,整合了faster-whisper0.9、whisperX3.1.1、Demucs4.0。
雖然我一般更偏向于用原生項(xiàng)目,畢竟原生項(xiàng)目更新更及時(shí),而整合項(xiàng)目畢竟容易有爛尾風(fēng)險(xiǎn)。但是在HuggingFace被禁的大背景下,一些整合項(xiàng)目不僅實(shí)用也是大家最省事的解決方案。
下載地址:https://pan.quark.cn/s/b2423764b018#/list/share
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/
- 1 “花兒為什么這樣紅” 7904673
- 2 70萬一針救命藥進(jìn)醫(yī)保 7808044
- 3 用1分錢做“暗號(hào)”的食堂阿姨火了 7713486
- 4 去新疆的100個(gè)理由 7615786
- 5 霸總要沒了?廣電出手規(guī)范管理短劇 7522222
- 6 老人用手機(jī)哄5歲孫子 致1000度近視 7428699
- 7 全球首例!中國(guó)航母福建艦創(chuàng)紀(jì)錄 7333788
- 8 日本網(wǎng)友贊嘆福建艦:真的太帥了 7232397
- 9 中國(guó)今年出了三位A類影后 7138398
- 10 國(guó)慶中秋假期何時(shí)出門不堵?官方預(yù)測(cè) 7042902