
AudioGenie – 騰訊AI Lab推出的多模態(tài)音頻生成工具
聲明:該文章由作者(姚彤彤)發(fā)表,轉(zhuǎn)載此文章須經(jīng)作者同意并請附上出處(0XUCN)及本頁鏈接。。
AudioGenie是騰訊AI Lab團(tuán)隊(duì)推出的多模態(tài)音頻生成工具,能從視頻、文本、圖像等多種模態(tài)輸入生成音效、語音、音樂等多種音頻輸出。工具采用無訓(xùn)練的多智能體框架,通過生成團(tuán)隊(duì)和監(jiān)督團(tuán)隊(duì)的雙層架構(gòu)實(shí)現(xiàn)高效協(xié)同。生成團(tuán)隊(duì)負(fù)責(zé)將復(fù)雜的輸入分解為具體的音頻子事件,通過自適應(yīng)混合專家(MoE)協(xié)作機(jī)制動態(tài)選擇最適合的模型進(jìn)行生成。監(jiān)督團(tuán)隊(duì)則負(fù)責(zé)時空一致性驗(yàn)證,通過反饋循環(huán)進(jìn)行自我糾錯,確保生成的音頻高度可靠。
AudioGenie建立了全球首個針對多模態(tài)到多音頻生成(MM2MA)任務(wù)的基準(zhǔn)測試集MA-Bench,包含198個帶有多類型音頻注釋的視頻。在測試中,AudioGenie在9項(xiàng)指標(biāo)、8項(xiàng)任務(wù)中均達(dá)到或接近最先進(jìn)水平,尤其在音質(zhì)、準(zhǔn)確性、內(nèi)容對齊和美學(xué)體驗(yàn)方面表現(xiàn)出色。
AudioGenie的主要功能
AudioGenie的技術(shù)原理
AudioGenie的項(xiàng)目地址
項(xiàng)目官網(wǎng):https://audiogenie.github.io/
AudioGenie的應(yīng)用場景
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904227
- 2 今年最強(qiáng)臺風(fēng)來襲 7809485
- 3 澳加英宣布承認(rèn)巴勒斯坦國 7712051
- 4 長春航空展這些“首次”不要錯過 7617328
- 5 43歲二胎媽媽患阿爾茨海默病 7519755
- 6 iPhone 17橙色斜挎掛繩賣斷貨 7424897
- 7 女子花10萬云養(yǎng)豬生重病難退錢 7331229
- 8 中國消失的森林正“全盤復(fù)活” 7232822
- 9 三所“零近視”小學(xué)帶來的啟示 7136113
- 10 老奶奶去世3年 鄰居幫打掃門前落葉 7048298