黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標簽
我們會為你匹配適合你的網(wǎng)址導航

跳過將刪除所有初始化信息

Kimi-Audio：革新多模態(tài)音頻處理，統(tǒng)一音頻理解、生成與對話！

智能 2025-05-10 18:49

聲明：該文章來自（開源星探）版權由原作者所有，K2OS渲染引擎提供網(wǎng)頁加速服務。

處理音頻數(shù)據(jù)時，我們是不是經(jīng)常要切換各種工具？

轉(zhuǎn)寫用 ASR（語音識別），轉(zhuǎn)音頻又得找穩(wěn)定的 TTS 模型（工具）……

幾個小時前，月之暗面 Moonshot AI 正式開源了?Kimi-Audio，可以幫助我們解決處理音頻時來回切換不同工具的痛點。

Kimi-Audio?由月之暗面（Moonshot AI）開發(fā)，是一款開源音頻基礎模型，基于 Qwen 2.5-7B 構建，可以統(tǒng)一處理音頻理解、生成和對話任務。

依托 1300 萬小時音頻數(shù)據(jù)預訓練，通過混合輸入（離散語義標記 + 連續(xù)聲學特征）與創(chuàng)新架構，統(tǒng)一多種任務。

Kimi-Audio 支持語音識別（ASR）、音頻問答（AQA）、音頻字幕（AAC）、情感識別（SER）、聲音分類（SEC/ASC）、文本到語音（TTS）、語音轉(zhuǎn)換（VC）和端到端語音對話。

主要功能

??語音識別 (ASR)：在AISHELL-1上字錯誤率（WER）僅 0.60%，優(yōu)于 Whisper 和 Paraformer
??多任務音頻理解：聲音分類、情感識別、音頻問答任務，表現(xiàn)出色
??端到端語音對話：支持情緒、口音、語速等個性化控制
??高效流式生成：使用 BigVGAN 聲碼器和分塊流機制（look-ahead），延遲低至毫秒級
??開源評估工具包：Kimi-Audio-Evalkit 提供標準化評估，覆蓋 ASR、AQA、SER 等任務

快速部署

Kimi-Audio 提供 Docker 和本地部署兩種方式。

本地部署

1、克隆項目

git?clone?https://github.com/MoonshotAI/Kimi-Audio cd?Kimi-Audio

2、安裝依賴

pip?install?-r?requirements.txt

Docker 部署

1、構建鏡像

docker?build?-t?kimi-audio:v0.1?.

或使用預構建鏡像

docker?pull?moonshotai/kimi-audio:v0.1

2、運行容器

docker?run?-it?--gpus?all?kimi-audio:v0.1

使用方法

1、加載模型

import?soundfile?as?sf from?kimia_infer.api.kimia?import?KimiAudio #?---?1.?加載模型?--- model_path?=?"moonshotai/Kimi-Audio-7B-Instruct"? model?=?KimiAudio(model_path=model_path,?load_detokenizer=True) #?---?2.?設置采樣參數(shù)?--- sampling_params?=?{ ????"audio_temperature":?0.8, ????"audio_top_k":?10, ????"text_temperature":?0.0, ????"text_top_k":?5, ????"audio_repetition_penalty":?1.0, ????"audio_repetition_window_size":?64, ????"text_repetition_penalty":?1.0, ????"text_repetition_window_size":?16, }

2、語音識別（ASR）- 示例

#?---?3.?Example?1:?Audio-to-Text?(ASR)?--- messages_asr?=?[ ????#?You?can?provide?context?or?instructions?as?text ????{"role":?"user",?"message_type":?"text",?"content":?"Please?transcribe?the?following?audio:"}, ????#?Provide?the?audio?file?path ????{"role":?"user",?"message_type":?"audio",?"content":?"test_audios/asr_example.wav"} ] #?Generate?only?text?output _,?text_output?=?model.generate(messages_asr,?**sampling_params,?output_type="text") print(">>>?ASR?Output?Text:?",?text_output)?#?Expected?output:?"這并不是告別，這是一個篇章的結束，也是新篇章的開始。"

3、語音對話 - 示例

#?---?4.?Example?2:?Audio-to-Audio/Text?Conversation?--- messages_conversation?=?[ ????#?Start?conversation?with?an?audio?query ????{"role":?"user",?"message_type":?"audio",?"content":?"test_audios/qa_example.wav"} ] #?Generate?both?audio?and?text?output wav_output,?text_output?=?model.generate(messages_conversation,?**sampling_params,?output_type="both") #?Save?the?generated?audio output_audio_path?=?"output_audio.wav" sf.write(output_audio_path,?wav_output.detach().cpu().view(-1).numpy(),?24000)?#?Assuming?24kHz?output print(f">>>?Conversational?Output?Audio?saved?to:?{output_audio_path}") print(">>>?Conversational?Output?Text:?",?text_output)?#?Expected?output:?"A." print("Kimi-Audio?inference?examples?complete.")

運行評估工具包

1、克隆 Evalkit

git?clone?https://github.com/MoonshotAI/Kimi-Audio-Evalkit cd?Kimi-Audio-Evalkit pip?install?-r?requirements.txt

2、運行 ASR 評估

python?almeval/datasets/ds_asr.py?--model?kimi-audio

更多使用細則可參考項目文檔或HF模型說明。

寫在最后

Kimi Audio?是基于 Qwen 2.5-7B 構建的音頻-文本多模態(tài)基礎模型，它既能聽懂，又能說話，而且理解深、表達自然、響應快。

具備語音識別（ASR）、音頻理解（分類/情緒識別/問答）、端到端語音生成（TTS對話）等核心功能，真正把過去需要多個不同模型的能力，統(tǒng)一到一套模型架構之中！

是一款同時能聽懂、聽會、還能回答、還能說的超級音頻模型，一步到位搞定音頻所有需求。

比如用它做智能聽寫系統(tǒng)、語音版Chatbot、音頻情緒檢測之類的都是可以滿足的。

GitHub 項目地址：https://github.com/MoonshotAI/Kimi-Audio

模型 HuggingFace：https://huggingface.co/moonshotai/Kimi-Audio-7B-Instruct

關注我們

[超站]友情鏈接：

四季很好，只要有你，文娛排行榜：https://www.yaopaiming.com/
關注數(shù)據(jù)與安全，洞悉企業(yè)級服務市場：https://www.ijiandao.com/

*文章為作者獨立觀點，不代表 0XUCN 立場

本文由野原茜發(fā)表，轉(zhuǎn)載此文章須經(jīng)作者同意，并請附上出處(0XUCN)及本頁鏈接。

原文鏈接 http://jjbxz.cn/article/intelnet/intelligent/59257.html

Kimi-Audio.月之暗面開源星探

圖庫

百度熱搜榜

排名熱點搜索指數(shù)

bgame.cn

分享文章

微信
微信掃碼分享

新浪微博
離開
復制鏈接
返回頂部

<kbd id="fsh65"><sup id="fsh65"><td id="fsh65"></td></sup></kbd>