
Dia-1.6B 僅憑借 1.6B 參數(shù)就可實(shí)現(xiàn)情感控制、非語(yǔ)言聲音(如笑聲、咳嗽)和零樣本聲紋克隆,運(yùn)行效率驚人。
由?Nari Labs?開發(fā)的?Dia-1.6B?以其超逼真的對(duì)話生成能力引發(fā)熱議,僅開源兩天便在 GitHub 收獲?6.5K+?Star!
據(jù)說其能力超越了 ElevenLabs 和 Sesame,僅憑借 1.6B 參數(shù)就可實(shí)現(xiàn)情感控制、非語(yǔ)言聲音(如笑聲、咳嗽)和零樣本聲紋克隆,運(yùn)行效率驚人。
支持從文本腳本生成多角色對(duì)話,通過 [S1]、[S2] 標(biāo)簽區(qū)分角色,生成自然語(yǔ)音,并支持非語(yǔ)言表達(dá)和聲紋克隆,目前僅限英語(yǔ)。
它在 Hugging Face 也提供了模型權(quán)重和 Gradio Demo 體驗(yàn)。
主要功能
??多角色對(duì)話生成:使用 [S1]、[S2] 等標(biāo)簽區(qū)分角色,單次生成多角色對(duì)話,保持自然節(jié)奏和情感過渡。 ??擬人化表達(dá):支持笑聲(laugh)、嘆氣(sigh)、咳嗽(cough)等非語(yǔ)言情緒 ??零樣本聲紋克隆:可微調(diào)或指定語(yǔ)音風(fēng)格,克隆用戶或角色聲音 ??高質(zhì)量語(yǔ)音合成:音質(zhì)媲美 ElevenLabs、Sesame,細(xì)節(jié)自然,情緒變化真實(shí) ??實(shí)時(shí)推理速度:A4000 顯卡上約 40 tokens/s,體驗(yàn)流暢無等待 ??Gradio 界面支持:自帶可用的 Web UI 界面,輸入文本立即試聽
快速上手
Dia-1.6B 官方實(shí)驗(yàn)室提供了詳細(xì)安裝指南和 Gradio 演示。
在線體驗(yàn):
無需配置環(huán)境,打開 Hugging Face Demo 即可輸入腳本或音頻試聽效果:
Demo:https://huggingface.co/spaces/nari-labs/Dia-1.6B
安裝部署與使用步驟:
1、克隆項(xiàng)目
git?clone?https://github.com/nari-labs/dia.git
cd?dia
2、創(chuàng)建虛擬環(huán)境
python -m venv .venv
source?.venv/bin/activate
3、安裝依賴
pip install -e .
4、啟動(dòng) Gradio UI
python app.py
訪問?http://localhost:7860,輸入腳本或上傳音頻,生成對(duì)話。
示例腳本:
[S1] Dia is amazing! [S2] Yeah, it generates laughs too! (laughs)
還可以通過 Python 包安裝 Dia 的API
# Install directly from GitHub
pip install git+https://github.com/nari-labs/dia.git
Python 調(diào)用示例:
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
text =?"[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."
output = model.generate(text)
sf.write("simple.mp3", output, 44100)
后續(xù)也將推出 pypi包和CLI工具。
使用場(chǎng)景推薦
??有聲讀物 / 小說播報(bào):讓不同角色“開口說話”,配合情緒詞還原真實(shí)語(yǔ)境 ??播客配音:快速合成帶感情、有風(fēng)格的訪談?lì)愓Z(yǔ)音 ??AI 角色扮演:配合 Agent,多角色模擬對(duì)話系統(tǒng) ??TTS 研究與微調(diào):聲音克隆、情緒控制、非語(yǔ)言表達(dá)
寫在最后
Dia-1.6B 是開源 TTS 領(lǐng)域的最新研究成果,其逼真對(duì)話和低資源需求讓人驚嘆。
小體量(1.6B 參數(shù))卻能生成媲美 ElevenLabs、Sesame 的高保真語(yǔ)音,甚至能區(qū)分角色、模擬非語(yǔ)言情緒(比如:[咳嗽]、[嘆氣]、[笑聲])。
其免費(fèi)開源 + 超高擬真度 + 多角色/非語(yǔ)言表達(dá)全支持,使其成為目前開源TTS領(lǐng)域最值得關(guān)注的TTS項(xiàng)目之一!
不過目前僅支持英文,期待后續(xù)能夠支持中文及更多語(yǔ)言。
GitHub 項(xiàng)目地址:https://github.com/nari-labs/dia
HF 模型地址:https://huggingface.co/nari-labs/Dia-1.6B
在線Demo:https://huggingface.co/spaces/nari-labs/Dia-1.6B
如果你有個(gè) AI 角色,想讓它“開口說話”,甚至“笑一下”,Dia-1.6B 那就太適合了。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904292
- 2 今年最強(qiáng)臺(tái)風(fēng)來襲 7808542
- 3 澳加英宣布承認(rèn)巴勒斯坦國(guó) 7713052
- 4 長(zhǎng)春航空展這些“首次”不要錯(cuò)過 7616730
- 5 43歲二胎媽媽患阿爾茨海默病 7520775
- 6 iPhone 17橙色斜挎掛繩賣斷貨 7427712
- 7 英國(guó)航母從南?!傲锪恕?/a> 7327900
- 8 女子花10萬云養(yǎng)豬生重病難退錢 7238315
- 9 三所“零近視”小學(xué)帶來的啟示 7142000
- 10 中國(guó)消失的森林正“全盤復(fù)活” 7046896