黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標(biāo)簽
我們會為你匹配適合你的網(wǎng)址導(dǎo)航

    確認(rèn) 跳過

    跳過將刪除所有初始化信息

    您的位置:0XUCN > 資訊 > 智能
    新聞分類

    Kimi-Audio:革新多模態(tài)音頻處理,統(tǒng)一音頻理解、生成與對話!

    智能 PRO 稿源:開源星探 2025-05-10 18:49

    處理音頻數(shù)據(jù)時(shí),我們是不是經(jīng)常要切換各種工具?

    轉(zhuǎn)寫用 ASR(語音識別),轉(zhuǎn)音頻又得找穩(wěn)定的 TTS 模型(工具)……

    幾個(gè)小時(shí)前,月之暗面 Moonshot AI 正式開源了?Kimi-Audio,可以幫助我們解決處理音頻時(shí)來回切換不同工具的痛點(diǎn)。

    Kimi-Audio?由月之暗面(Moonshot AI)開發(fā),是一款開源音頻基礎(chǔ)模型,基于 Qwen 2.5-7B 構(gòu)建,可以統(tǒng)一處理音頻理解、生成和對話任務(wù)。

    依托 1300 萬小時(shí)音頻數(shù)據(jù)預(yù)訓(xùn)練,通過混合輸入(離散語義標(biāo)記 + 連續(xù)聲學(xué)特征)與創(chuàng)新架構(gòu),統(tǒng)一多種任務(wù)。

    Kimi-Audio 支持語音識別(ASR)、音頻問答(AQA)、音頻字幕(AAC)、情感識別(SER)、聲音分類(SEC/ASC)、文本到語音(TTS)、語音轉(zhuǎn)換(VC)和端到端語音對話。

    主要功能

    • ??語音識別 (ASR):在AISHELL-1上字錯(cuò)誤率(WER)僅 0.60%,優(yōu)于 Whisper 和 Paraformer
    • ??多任務(wù)音頻理解:聲音分類、情感識別、音頻問答任務(wù),表現(xiàn)出色
    • ??端到端語音對話:支持情緒、口音、語速等個(gè)性化控制
    • ??高效流式生成:使用 BigVGAN 聲碼器和分塊流機(jī)制(look-ahead),延遲低至毫秒級
    • ??開源評估工具包:Kimi-Audio-Evalkit 提供標(biāo)準(zhǔn)化評估,覆蓋 ASR、AQA、SER 等任務(wù)

    快速部署

    Kimi-Audio 提供 Docker 和本地部署兩種方式。

    本地部署

    1、克隆項(xiàng)目

    git?clone?https://github.com/MoonshotAI/Kimi-Audio cd?Kimi-Audio

    2、安裝依賴

    pip?install?-r?requirements.txt

    Docker 部署

    1、構(gòu)建鏡像

    docker?build?-t?kimi-audio:v0.1?.

    或使用預(yù)構(gòu)建鏡像

    docker?pull?moonshotai/kimi-audio:v0.1

    2、運(yùn)行容器

    docker?run?-it?--gpus?all?kimi-audio:v0.1

    使用方法

    1、加載模型

    import?soundfile?as?sf from?kimia_infer.api.kimia?import?KimiAudio #?---?1.?加載模型?--- model_path?=?"moonshotai/Kimi-Audio-7B-Instruct"? model?=?KimiAudio(model_path=model_path,?load_detokenizer=True) #?---?2.?設(shè)置采樣參數(shù)?--- sampling_params?=?{ ????"audio_temperature":?0.8, ????"audio_top_k":?10, ????"text_temperature":?0.0, ????"text_top_k":?5, ????"audio_repetition_penalty":?1.0, ????"audio_repetition_window_size":?64, ????"text_repetition_penalty":?1.0, ????"text_repetition_window_size":?16, }

    2、語音識別(ASR)- 示例

    #?---?3.?Example?1:?Audio-to-Text?(ASR)?--- messages_asr?=?[ ????#?You?can?provide?context?or?instructions?as?text ????{"role":?"user",?"message_type":?"text",?"content":?"Please?transcribe?the?following?audio:"}, ????#?Provide?the?audio?file?path ????{"role":?"user",?"message_type":?"audio",?"content":?"test_audios/asr_example.wav"} ] #?Generate?only?text?output _,?text_output?=?model.generate(messages_asr,?**sampling_params,?output_type="text") print(">>>?ASR?Output?Text:?",?text_output)?#?Expected?output:?"這并不是告別,這是一個(gè)篇章的結(jié)束,也是新篇章的開始。"

    3、語音對話 - 示例

    #?---?4.?Example?2:?Audio-to-Audio/Text?Conversation?--- messages_conversation?=?[ ????#?Start?conversation?with?an?audio?query ????{"role":?"user",?"message_type":?"audio",?"content":?"test_audios/qa_example.wav"} ] #?Generate?both?audio?and?text?output wav_output,?text_output?=?model.generate(messages_conversation,?**sampling_params,?output_type="both") #?Save?the?generated?audio output_audio_path?=?"output_audio.wav" sf.write(output_audio_path,?wav_output.detach().cpu().view(-1).numpy(),?24000)?#?Assuming?24kHz?output print(f">>>?Conversational?Output?Audio?saved?to:?{output_audio_path}") print(">>>?Conversational?Output?Text:?",?text_output)?#?Expected?output:?"A." print("Kimi-Audio?inference?examples?complete.")

    運(yùn)行評估工具包

    1、克隆 Evalkit

    git?clone?https://github.com/MoonshotAI/Kimi-Audio-Evalkit cd?Kimi-Audio-Evalkit pip?install?-r?requirements.txt

    2、運(yùn)行 ASR 評估

    python?almeval/datasets/ds_asr.py?--model?kimi-audio

    更多使用細(xì)則可參考項(xiàng)目文檔或HF模型說明。

    寫在最后

    Kimi Audio?是基于 Qwen 2.5-7B 構(gòu)建的音頻-文本多模態(tài)基礎(chǔ)模型,它既能聽懂,又能說話,而且理解深、表達(dá)自然、響應(yīng)快。

    具備語音識別(ASR)、音頻理解(分類/情緒識別/問答)、端到端語音生成(TTS對話)等核心功能,真正把過去需要多個(gè)不同模型的能力,統(tǒng)一到一套模型架構(gòu)之中!

    是一款同時(shí)能聽懂、聽會、還能回答、還能說的超級音頻模型,一步到位搞定音頻所有需求。

    比如用它做智能聽寫系統(tǒng)、語音版Chatbot、音頻情緒檢測之類的都是可以滿足的。

    GitHub 項(xiàng)目地址:https://github.com/MoonshotAI/Kimi-Audio

    模型 HuggingFace:https://huggingface.co/moonshotai/Kimi-Audio-7B-Instruct

    0XU.CN

    [超站]友情鏈接:

    四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
    關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

    圖庫
    公眾號 關(guān)注網(wǎng)絡(luò)尖刀微信公眾號
    隨時(shí)掌握互聯(lián)網(wǎng)精彩
    贊助鏈接