黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標簽
我們會為你匹配適合你的網(wǎng)址導航

    確認 跳過

    跳過將刪除所有初始化信息

    Kimi-Audio:革新多模態(tài)音頻處理,統(tǒng)一音頻理解、生成與對話!

    智能 2025-05-10 18:49

    聲明:該文章來自(開源星探)版權由原作者所有,K2OS渲染引擎提供網(wǎng)頁加速服務。

    處理音頻數(shù)據(jù)時,我們是不是經(jīng)常要切換各種工具?

    轉(zhuǎn)寫用 ASR(語音識別),轉(zhuǎn)音頻又得找穩(wěn)定的 TTS 模型(工具)……

    幾個小時前,月之暗面 Moonshot AI 正式開源了?Kimi-Audio,可以幫助我們解決處理音頻時來回切換不同工具的痛點。

    Kimi-Audio?由月之暗面(Moonshot AI)開發(fā),是一款開源音頻基礎模型,基于 Qwen 2.5-7B 構建,可以統(tǒng)一處理音頻理解、生成和對話任務。

    依托 1300 萬小時音頻數(shù)據(jù)預訓練,通過混合輸入(離散語義標記 + 連續(xù)聲學特征)與創(chuàng)新架構,統(tǒng)一多種任務。

    Kimi-Audio 支持語音識別(ASR)、音頻問答(AQA)、音頻字幕(AAC)、情感識別(SER)、聲音分類(SEC/ASC)、文本到語音(TTS)、語音轉(zhuǎn)換(VC)和端到端語音對話。

    主要功能

    • ??語音識別 (ASR):在AISHELL-1上字錯誤率(WER)僅 0.60%,優(yōu)于 Whisper 和 Paraformer
    • ??多任務音頻理解:聲音分類、情感識別、音頻問答任務,表現(xiàn)出色
    • ??端到端語音對話:支持情緒、口音、語速等個性化控制
    • ??高效流式生成:使用 BigVGAN 聲碼器和分塊流機制(look-ahead),延遲低至毫秒級
    • ??開源評估工具包:Kimi-Audio-Evalkit 提供標準化評估,覆蓋 ASR、AQA、SER 等任務

    快速部署

    Kimi-Audio 提供 Docker 和本地部署兩種方式。

    本地部署

    1、克隆項目

    git?clone?https://github.com/MoonshotAI/Kimi-Audio cd?Kimi-Audio

    2、安裝依賴

    pip?install?-r?requirements.txt

    Docker 部署

    1、構建鏡像

    docker?build?-t?kimi-audio:v0.1?.

    或使用預構建鏡像

    docker?pull?moonshotai/kimi-audio:v0.1

    2、運行容器

    docker?run?-it?--gpus?all?kimi-audio:v0.1

    使用方法

    1、加載模型

    import?soundfile?as?sf from?kimia_infer.api.kimia?import?KimiAudio #?---?1.?加載模型?--- model_path?=?"moonshotai/Kimi-Audio-7B-Instruct"? model?=?KimiAudio(model_path=model_path,?load_detokenizer=True) #?---?2.?設置采樣參數(shù)?--- sampling_params?=?{ ????"audio_temperature":?0.8, ????"audio_top_k":?10, ????"text_temperature":?0.0, ????"text_top_k":?5, ????"audio_repetition_penalty":?1.0, ????"audio_repetition_window_size":?64, ????"text_repetition_penalty":?1.0, ????"text_repetition_window_size":?16, }

    2、語音識別(ASR)- 示例

    #?---?3.?Example?1:?Audio-to-Text?(ASR)?--- messages_asr?=?[ ????#?You?can?provide?context?or?instructions?as?text ????{"role":?"user",?"message_type":?"text",?"content":?"Please?transcribe?the?following?audio:"}, ????#?Provide?the?audio?file?path ????{"role":?"user",?"message_type":?"audio",?"content":?"test_audios/asr_example.wav"} ] #?Generate?only?text?output _,?text_output?=?model.generate(messages_asr,?**sampling_params,?output_type="text") print(">>>?ASR?Output?Text:?",?text_output)?#?Expected?output:?"這并不是告別,這是一個篇章的結束,也是新篇章的開始。"

    3、語音對話 - 示例

    #?---?4.?Example?2:?Audio-to-Audio/Text?Conversation?--- messages_conversation?=?[ ????#?Start?conversation?with?an?audio?query ????{"role":?"user",?"message_type":?"audio",?"content":?"test_audios/qa_example.wav"} ] #?Generate?both?audio?and?text?output wav_output,?text_output?=?model.generate(messages_conversation,?**sampling_params,?output_type="both") #?Save?the?generated?audio output_audio_path?=?"output_audio.wav" sf.write(output_audio_path,?wav_output.detach().cpu().view(-1).numpy(),?24000)?#?Assuming?24kHz?output print(f">>>?Conversational?Output?Audio?saved?to:?{output_audio_path}") print(">>>?Conversational?Output?Text:?",?text_output)?#?Expected?output:?"A." print("Kimi-Audio?inference?examples?complete.")

    運行評估工具包

    1、克隆 Evalkit

    git?clone?https://github.com/MoonshotAI/Kimi-Audio-Evalkit cd?Kimi-Audio-Evalkit pip?install?-r?requirements.txt

    2、運行 ASR 評估

    python?almeval/datasets/ds_asr.py?--model?kimi-audio

    更多使用細則可參考項目文檔或HF模型說明。

    寫在最后

    Kimi Audio?是基于 Qwen 2.5-7B 構建的音頻-文本多模態(tài)基礎模型,它既能聽懂,又能說話,而且理解深、表達自然、響應快。

    具備語音識別(ASR)、音頻理解(分類/情緒識別/問答)、端到端語音生成(TTS對話)等核心功能,真正把過去需要多個不同模型的能力,統(tǒng)一到一套模型架構之中!

    是一款同時能聽懂、聽會、還能回答、還能說的超級音頻模型,一步到位搞定音頻所有需求。

    比如用它做智能聽寫系統(tǒng)、語音版Chatbot、音頻情緒檢測之類的都是可以滿足的。

    GitHub 項目地址:https://github.com/MoonshotAI/Kimi-Audio

    模型 HuggingFace:https://huggingface.co/moonshotai/Kimi-Audio-7B-Instruct

    關注我們

    [超站]友情鏈接:

    四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
    關注數(shù)據(jù)與安全,洞悉企業(yè)級服務市場:https://www.ijiandao.com/

    圖庫