
Dia-1.6B 僅憑借 1.6B 參數(shù)就可實現(xiàn)情感控制、非語言聲音(如笑聲、咳嗽)和零樣本聲紋克隆,運(yùn)行效率驚人。
聲明:該文章由作者(tnaflix)發(fā)表,轉(zhuǎn)載此文章須經(jīng)作者同意并請附上出處(0XUCN)及本頁鏈接。。
由?Nari Labs?開發(fā)的?Dia-1.6B?以其超逼真的對話生成能力引發(fā)熱議,僅開源兩天便在 GitHub 收獲?6.5K+?Star!
據(jù)說其能力超越了 ElevenLabs 和 Sesame,僅憑借 1.6B 參數(shù)就可實現(xiàn)情感控制、非語言聲音(如笑聲、咳嗽)和零樣本聲紋克隆,運(yùn)行效率驚人。
支持從文本腳本生成多角色對話,通過 [S1]、[S2] 標(biāo)簽區(qū)分角色,生成自然語音,并支持非語言表達(dá)和聲紋克隆,目前僅限英語。
它在 Hugging Face 也提供了模型權(quán)重和 Gradio Demo 體驗。
主要功能
??多角色對話生成:使用 [S1]、[S2] 等標(biāo)簽區(qū)分角色,單次生成多角色對話,保持自然節(jié)奏和情感過渡。 ??擬人化表達(dá):支持笑聲(laugh)、嘆氣(sigh)、咳嗽(cough)等非語言情緒 ??零樣本聲紋克隆:可微調(diào)或指定語音風(fēng)格,克隆用戶或角色聲音 ??高質(zhì)量語音合成:音質(zhì)媲美 ElevenLabs、Sesame,細(xì)節(jié)自然,情緒變化真實 ??實時推理速度:A4000 顯卡上約 40 tokens/s,體驗流暢無等待 ??Gradio 界面支持:自帶可用的 Web UI 界面,輸入文本立即試聽
快速上手
Dia-1.6B 官方實驗室提供了詳細(xì)安裝指南和 Gradio 演示。
在線體驗:
無需配置環(huán)境,打開 Hugging Face Demo 即可輸入腳本或音頻試聽效果:
Demo:https://huggingface.co/spaces/nari-labs/Dia-1.6B
安裝部署與使用步驟:
1、克隆項目
git?clone?https://github.com/nari-labs/dia.git
cd?dia
2、創(chuàng)建虛擬環(huán)境
python -m venv .venv
source?.venv/bin/activate
3、安裝依賴
pip install -e .
4、啟動 Gradio UI
python app.py
訪問?http://localhost:7860,輸入腳本或上傳音頻,生成對話。
示例腳本:
[S1] Dia is amazing! [S2] Yeah, it generates laughs too! (laughs)
還可以通過 Python 包安裝 Dia 的API
# Install directly from GitHub
pip install git+https://github.com/nari-labs/dia.git
Python 調(diào)用示例:
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
text =?"[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."
output = model.generate(text)
sf.write("simple.mp3", output, 44100)
后續(xù)也將推出 pypi包和CLI工具。
使用場景推薦
??有聲讀物 / 小說播報:讓不同角色“開口說話”,配合情緒詞還原真實語境 ??播客配音:快速合成帶感情、有風(fēng)格的訪談類語音 ??AI 角色扮演:配合 Agent,多角色模擬對話系統(tǒng) ??TTS 研究與微調(diào):聲音克隆、情緒控制、非語言表達(dá)
寫在最后
Dia-1.6B 是開源 TTS 領(lǐng)域的最新研究成果,其逼真對話和低資源需求讓人驚嘆。
小體量(1.6B 參數(shù))卻能生成媲美 ElevenLabs、Sesame 的高保真語音,甚至能區(qū)分角色、模擬非語言情緒(比如:[咳嗽]、[嘆氣]、[笑聲])。
其免費開源 + 超高擬真度 + 多角色/非語言表達(dá)全支持,使其成為目前開源TTS領(lǐng)域最值得關(guān)注的TTS項目之一!
不過目前僅支持英文,期待后續(xù)能夠支持中文及更多語言。
GitHub 項目地址:https://github.com/nari-labs/dia
HF 模型地址:https://huggingface.co/nari-labs/Dia-1.6B
在線Demo:https://huggingface.co/spaces/nari-labs/Dia-1.6B
如果你有個 AI 角色,想讓它“開口說話”,甚至“笑一下”,Dia-1.6B 那就太適合了。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
- 1 重農(nóng)固本是安民之基、治國之要 7904184
- 2 廣東部分商超被搬空 只有辣椒被剩下 7808812
- 3 全球最強(qiáng)臺風(fēng)明日登陸廣東 7711862
- 4 和古人一起沉浸式收割曬谷 7616178
- 5 59歲大爺放下百萬生意演短劇 7522965
- 6 深圳宣布停工停業(yè)停市停課停運(yùn) 7424698
- 7 護(hù)網(wǎng):社交賬號不受控制?木馬在作祟 7329326
- 8 臺風(fēng)將至 居民家中“米”字玻璃就位 7238432
- 9 268萬翡翠標(biāo)錯價按26.8萬賣出 7138558
- 10 美國飛行員大喊美國是大屠殺同謀 7040825