
AudioGenie – 騰訊AI Lab推出的多模態(tài)音頻生成工具
AudioGenie是騰訊AI Lab團(tuán)隊(duì)推出的多模態(tài)音頻生成工具,能從視頻、文本、圖像等多種模態(tài)輸入生成音效、語(yǔ)音、音樂(lè)等多種音頻輸出。工具采用無(wú)訓(xùn)練的多智能體框架,通過(guò)生成團(tuán)隊(duì)和監(jiān)督團(tuán)隊(duì)的雙層架構(gòu)實(shí)現(xiàn)高效協(xié)同。生成團(tuán)隊(duì)負(fù)責(zé)將復(fù)雜的輸入分解為具體的音頻子事件,通過(guò)自適應(yīng)混合專家(MoE)協(xié)作機(jī)制動(dòng)態(tài)選擇最適合的模型進(jìn)行生成。監(jiān)督團(tuán)隊(duì)則負(fù)責(zé)時(shí)空一致性驗(yàn)證,通過(guò)反饋循環(huán)進(jìn)行自我糾錯(cuò),確保生成的音頻高度可靠。
AudioGenie建立了全球首個(gè)針對(duì)多模態(tài)到多音頻生成(MM2MA)任務(wù)的基準(zhǔn)測(cè)試集MA-Bench,包含198個(gè)帶有多類型音頻注釋的視頻。在測(cè)試中,AudioGenie在9項(xiàng)指標(biāo)、8項(xiàng)任務(wù)中均達(dá)到或接近最先進(jìn)水平,尤其在音質(zhì)、準(zhǔn)確性、內(nèi)容對(duì)齊和美學(xué)體驗(yàn)方面表現(xiàn)出色。
AudioGenie的主要功能
AudioGenie的技術(shù)原理
AudioGenie的項(xiàng)目地址
項(xiàng)目官網(wǎng):https://audiogenie.github.io/
AudioGenie的應(yīng)用場(chǎng)景
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 中美完全可以相互成就、共同繁榮 7904034
- 2 加沙已變“死城” 7809358
- 3 暴雨中臺(tái)下只剩1名觀眾 演員仍開(kāi)演 7714379
- 4 近距離感受“大國(guó)重器” 7618832
- 5 美國(guó)大豆中國(guó)訂單量仍為零 7519722
- 6 試管嬰兒患腎病 父母要求醫(yī)院擔(dān)全責(zé) 7424149
- 7 女子婚后起訴父母返還18萬(wàn)彩禮 7329461
- 8 委內(nèi)瑞拉:美國(guó)“不宣而戰(zhàn)” 7234348
- 9 金價(jià)飆升 有非法淘金人井下生活兩年 7135491
- 10 網(wǎng)紅“戶晨風(fēng)”多平臺(tái)賬號(hào)被封 7045475