
Kimi-Audio:革新多模態(tài)音頻處理,統(tǒng)一音頻理解、生成與對話!
聲明:該文章來自(開源星探)版權由原作者所有,K2OS渲染引擎提供網(wǎng)頁加速服務。
處理音頻數(shù)據(jù)時,我們是不是經(jīng)常要切換各種工具?
轉(zhuǎn)寫用 ASR(語音識別),轉(zhuǎn)音頻又得找穩(wěn)定的 TTS 模型(工具)……
幾個小時前,月之暗面 Moonshot AI 正式開源了?Kimi-Audio,可以幫助我們解決處理音頻時來回切換不同工具的痛點。
Kimi-Audio?由月之暗面(Moonshot AI)開發(fā),是一款開源音頻基礎模型,基于 Qwen 2.5-7B 構建,可以統(tǒng)一處理音頻理解、生成和對話任務。
依托 1300 萬小時音頻數(shù)據(jù)預訓練,通過混合輸入(離散語義標記 + 連續(xù)聲學特征)與創(chuàng)新架構,統(tǒng)一多種任務。
Kimi-Audio 支持語音識別(ASR)、音頻問答(AQA)、音頻字幕(AAC)、情感識別(SER)、聲音分類(SEC/ASC)、文本到語音(TTS)、語音轉(zhuǎn)換(VC)和端到端語音對話。
主要功能
??語音識別 (ASR):在AISHELL-1上字錯誤率(WER)僅 0.60%,優(yōu)于 Whisper 和 Paraformer ??多任務音頻理解:聲音分類、情感識別、音頻問答任務,表現(xiàn)出色 ??端到端語音對話:支持情緒、口音、語速等個性化控制 ??高效流式生成:使用 BigVGAN 聲碼器和分塊流機制(look-ahead),延遲低至毫秒級 ??開源評估工具包:Kimi-Audio-Evalkit 提供標準化評估,覆蓋 ASR、AQA、SER 等任務
快速部署
Kimi-Audio 提供 Docker 和本地部署兩種方式。
本地部署
1、克隆項目
git?clone?https://github.com/MoonshotAI/Kimi-Audio cd?Kimi-Audio
2、安裝依賴
pip?install?-r?requirements.txt
Docker 部署
1、構建鏡像
docker?build?-t?kimi-audio:v0.1?.
或使用預構建鏡像
docker?pull?moonshotai/kimi-audio:v0.1
2、運行容器
docker?run?-it?--gpus?all?kimi-audio:v0.1
使用方法
1、加載模型
import?soundfile?as?sf from?kimia_infer.api.kimia?import?KimiAudio #?---?1.?加載模型?--- model_path?=?"moonshotai/Kimi-Audio-7B-Instruct"? model?=?KimiAudio(model_path=model_path,?load_detokenizer=True) #?---?2.?設置采樣參數(shù)?--- sampling_params?=?{ ????"audio_temperature":?0.8, ????"audio_top_k":?10, ????"text_temperature":?0.0, ????"text_top_k":?5, ????"audio_repetition_penalty":?1.0, ????"audio_repetition_window_size":?64, ????"text_repetition_penalty":?1.0, ????"text_repetition_window_size":?16, }
2、語音識別(ASR)- 示例
#?---?3.?Example?1:?Audio-to-Text?(ASR)?--- messages_asr?=?[ ????#?You?can?provide?context?or?instructions?as?text ????{"role":?"user",?"message_type":?"text",?"content":?"Please?transcribe?the?following?audio:"}, ????#?Provide?the?audio?file?path ????{"role":?"user",?"message_type":?"audio",?"content":?"test_audios/asr_example.wav"} ] #?Generate?only?text?output _,?text_output?=?model.generate(messages_asr,?**sampling_params,?output_type="text") print(">>>?ASR?Output?Text:?",?text_output)?#?Expected?output:?"這并不是告別,這是一個篇章的結束,也是新篇章的開始。"
3、語音對話 - 示例
#?---?4.?Example?2:?Audio-to-Audio/Text?Conversation?--- messages_conversation?=?[ ????#?Start?conversation?with?an?audio?query ????{"role":?"user",?"message_type":?"audio",?"content":?"test_audios/qa_example.wav"} ] #?Generate?both?audio?and?text?output wav_output,?text_output?=?model.generate(messages_conversation,?**sampling_params,?output_type="both") #?Save?the?generated?audio output_audio_path?=?"output_audio.wav" sf.write(output_audio_path,?wav_output.detach().cpu().view(-1).numpy(),?24000)?#?Assuming?24kHz?output print(f">>>?Conversational?Output?Audio?saved?to:?{output_audio_path}") print(">>>?Conversational?Output?Text:?",?text_output)?#?Expected?output:?"A." print("Kimi-Audio?inference?examples?complete.")
運行評估工具包
1、克隆 Evalkit
git?clone?https://github.com/MoonshotAI/Kimi-Audio-Evalkit cd?Kimi-Audio-Evalkit pip?install?-r?requirements.txt
2、運行 ASR 評估
python?almeval/datasets/ds_asr.py?--model?kimi-audio
更多使用細則可參考項目文檔或HF模型說明。
寫在最后
Kimi Audio?是基于 Qwen 2.5-7B 構建的音頻-文本多模態(tài)基礎模型,它既能聽懂,又能說話,而且理解深、表達自然、響應快。
具備語音識別(ASR)、音頻理解(分類/情緒識別/問答)、端到端語音生成(TTS對話)等核心功能,真正把過去需要多個不同模型的能力,統(tǒng)一到一套模型架構之中!
是一款同時能聽懂、聽會、還能回答、還能說的超級音頻模型,一步到位搞定音頻所有需求。
比如用它做智能聽寫系統(tǒng)、語音版Chatbot、音頻情緒檢測之類的都是可以滿足的。
GitHub 項目地址:https://github.com/MoonshotAI/Kimi-Audio
模型 HuggingFace:https://huggingface.co/moonshotai/Kimi-Audio-7B-Instruct
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關注數(shù)據(jù)與安全,洞悉企業(yè)級服務市場:https://www.ijiandao.com/
- 1 像石榴籽一樣緊緊抱在一起 7904705
- 2 殲-35完成在福建艦上彈射起飛 7808315
- 3 深圳:建議準備至少3天的應急物資 7711873
- 4 唱著民歌迎豐收 7619424
- 5 日本“蘋果病”流行達歷史頂點 7519883
- 6 孩子的數(shù)學邏輯比運算結果重要 7428006
- 7 背簍老人等公交被拒載 司機被開除 7331109
- 8 榴蓮降至15元一斤 7233074
- 9 福建艦三型機彈射成功意味著什么 7135378
- 10 苑舉正:中國重回盛世 7043837