
Kimi-Audio:革新多模態(tài)音頻處理,統(tǒng)一音頻理解、生成與對話!
處理音頻數(shù)據(jù)時(shí),我們是不是經(jīng)常要切換各種工具?
轉(zhuǎn)寫用 ASR(語音識別),轉(zhuǎn)音頻又得找穩(wěn)定的 TTS 模型(工具)……
幾個(gè)小時(shí)前,月之暗面 Moonshot AI 正式開源了?Kimi-Audio,可以幫助我們解決處理音頻時(shí)來回切換不同工具的痛點(diǎn)。
Kimi-Audio?由月之暗面(Moonshot AI)開發(fā),是一款開源音頻基礎(chǔ)模型,基于 Qwen 2.5-7B 構(gòu)建,可以統(tǒng)一處理音頻理解、生成和對話任務(wù)。
依托 1300 萬小時(shí)音頻數(shù)據(jù)預(yù)訓(xùn)練,通過混合輸入(離散語義標(biāo)記 + 連續(xù)聲學(xué)特征)與創(chuàng)新架構(gòu),統(tǒng)一多種任務(wù)。
Kimi-Audio 支持語音識別(ASR)、音頻問答(AQA)、音頻字幕(AAC)、情感識別(SER)、聲音分類(SEC/ASC)、文本到語音(TTS)、語音轉(zhuǎn)換(VC)和端到端語音對話。
主要功能
??語音識別 (ASR):在AISHELL-1上字錯(cuò)誤率(WER)僅 0.60%,優(yōu)于 Whisper 和 Paraformer ??多任務(wù)音頻理解:聲音分類、情感識別、音頻問答任務(wù),表現(xiàn)出色 ??端到端語音對話:支持情緒、口音、語速等個(gè)性化控制 ??高效流式生成:使用 BigVGAN 聲碼器和分塊流機(jī)制(look-ahead),延遲低至毫秒級 ??開源評估工具包:Kimi-Audio-Evalkit 提供標(biāo)準(zhǔn)化評估,覆蓋 ASR、AQA、SER 等任務(wù)
快速部署
Kimi-Audio 提供 Docker 和本地部署兩種方式。
本地部署
1、克隆項(xiàng)目
git?clone?https://github.com/MoonshotAI/Kimi-Audio cd?Kimi-Audio
2、安裝依賴
pip?install?-r?requirements.txt
Docker 部署
1、構(gòu)建鏡像
docker?build?-t?kimi-audio:v0.1?.
或使用預(yù)構(gòu)建鏡像
docker?pull?moonshotai/kimi-audio:v0.1
2、運(yùn)行容器
docker?run?-it?--gpus?all?kimi-audio:v0.1
使用方法
1、加載模型
import?soundfile?as?sf from?kimia_infer.api.kimia?import?KimiAudio #?---?1.?加載模型?--- model_path?=?"moonshotai/Kimi-Audio-7B-Instruct"? model?=?KimiAudio(model_path=model_path,?load_detokenizer=True) #?---?2.?設(shè)置采樣參數(shù)?--- sampling_params?=?{ ????"audio_temperature":?0.8, ????"audio_top_k":?10, ????"text_temperature":?0.0, ????"text_top_k":?5, ????"audio_repetition_penalty":?1.0, ????"audio_repetition_window_size":?64, ????"text_repetition_penalty":?1.0, ????"text_repetition_window_size":?16, }
2、語音識別(ASR)- 示例
#?---?3.?Example?1:?Audio-to-Text?(ASR)?--- messages_asr?=?[ ????#?You?can?provide?context?or?instructions?as?text ????{"role":?"user",?"message_type":?"text",?"content":?"Please?transcribe?the?following?audio:"}, ????#?Provide?the?audio?file?path ????{"role":?"user",?"message_type":?"audio",?"content":?"test_audios/asr_example.wav"} ] #?Generate?only?text?output _,?text_output?=?model.generate(messages_asr,?**sampling_params,?output_type="text") print(">>>?ASR?Output?Text:?",?text_output)?#?Expected?output:?"這并不是告別,這是一個(gè)篇章的結(jié)束,也是新篇章的開始。"
3、語音對話 - 示例
#?---?4.?Example?2:?Audio-to-Audio/Text?Conversation?--- messages_conversation?=?[ ????#?Start?conversation?with?an?audio?query ????{"role":?"user",?"message_type":?"audio",?"content":?"test_audios/qa_example.wav"} ] #?Generate?both?audio?and?text?output wav_output,?text_output?=?model.generate(messages_conversation,?**sampling_params,?output_type="both") #?Save?the?generated?audio output_audio_path?=?"output_audio.wav" sf.write(output_audio_path,?wav_output.detach().cpu().view(-1).numpy(),?24000)?#?Assuming?24kHz?output print(f">>>?Conversational?Output?Audio?saved?to:?{output_audio_path}") print(">>>?Conversational?Output?Text:?",?text_output)?#?Expected?output:?"A." print("Kimi-Audio?inference?examples?complete.")
運(yùn)行評估工具包
1、克隆 Evalkit
git?clone?https://github.com/MoonshotAI/Kimi-Audio-Evalkit cd?Kimi-Audio-Evalkit pip?install?-r?requirements.txt
2、運(yùn)行 ASR 評估
python?almeval/datasets/ds_asr.py?--model?kimi-audio
更多使用細(xì)則可參考項(xiàng)目文檔或HF模型說明。
寫在最后
Kimi Audio?是基于 Qwen 2.5-7B 構(gòu)建的音頻-文本多模態(tài)基礎(chǔ)模型,它既能聽懂,又能說話,而且理解深、表達(dá)自然、響應(yīng)快。
具備語音識別(ASR)、音頻理解(分類/情緒識別/問答)、端到端語音生成(TTS對話)等核心功能,真正把過去需要多個(gè)不同模型的能力,統(tǒng)一到一套模型架構(gòu)之中!
是一款同時(shí)能聽懂、聽會、還能回答、還能說的超級音頻模型,一步到位搞定音頻所有需求。
比如用它做智能聽寫系統(tǒng)、語音版Chatbot、音頻情緒檢測之類的都是可以滿足的。
GitHub 項(xiàng)目地址:https://github.com/MoonshotAI/Kimi-Audio
模型 HuggingFace:https://huggingface.co/moonshotai/Kimi-Audio-7B-Instruct
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904050
- 2 央視起底柯克之死 7808344
- 3 中產(chǎn)運(yùn)動(dòng)三件套又換了 7712443
- 4 長春航空展這些“首次”不要錯(cuò)過 7616681
- 5 持槍空降兵在孩子前一動(dòng)不敢動(dòng) 7521721
- 6 浙江大學(xué)教授被留置 持股市值31億 7427289
- 7 內(nèi)蒙古一地集中采集男性居民血樣 7334220
- 8 租客長租15年不到1年就被勸退 7237693
- 9 安踏市值蒸發(fā)125億港元 7137009
- 10 特朗普兒子模仿爸爸引哄堂大笑 7043451