
AudioStory – 騰訊ARC推出的音頻生成模型
智能
2025-09-03 13:55
聲明:該文章來自(AI工具集)版權(quán)由原作者所有,K2OS渲染引擎提供網(wǎng)頁加速服務(wù)。
AudioStory是什么
AudioStory 是騰訊 ARC 實驗室發(fā)布的音頻生成技術(shù),能根據(jù)自然語言描述生成高質(zhì)量的長篇敘事音頻。采用分而治之策略,將復(fù)雜敘事請求拆解為有序子任務(wù),通過解耦橋接機制,精準協(xié)調(diào)語義與音效細節(jié)。端到端訓練方式,提升了模型協(xié)同作用,生成的音頻具有時序邏輯與情緒層次。
AudioStory的主要功能
- 視頻自動配音:用戶上傳無聲視頻并描述音效風格,AudioStory可自動分析視頻內(nèi)容,生成與之同步且風格統(tǒng)一的背景音軌。
- 音頻智能續(xù)寫:給定一段音頻,AudioStory能智能推斷后續(xù)場景,自動補充合理的音頻續(xù)集,如根據(jù)籃球訓練的教練聲音補充球員腳步聲、籃球拍打聲等。
- 有聲書創(chuàng)作:為有聲書提供高質(zhì)量的音頻內(nèi)容,根據(jù)文本描述生成具有時序邏輯與情緒層次的音頻,讓聽眾更好地沉浸在故事中。
- 游戲音效制作:為游戲生成沉浸式的音效,根據(jù)游戲場景描述生成匹配的音頻,增強玩家的游戲體驗。
- 智能播客:幫助播客創(chuàng)作者快速生成音頻內(nèi)容,根據(jù)話題描述生成相應(yīng)的音頻片段,提高創(chuàng)作效率。
AudioStory的技術(shù)原理
- 分而治之策略:將復(fù)雜的敘事請求拆解為有順序的子任務(wù),分別生成對應(yīng)的音頻片段,再按時間軸精準編排,確保整體音頻的連貫性和邏輯性。
- 解耦橋接機制:將大語言模型與音頻生成器的合作分解為橋梁查詢和殘差查詢兩個組件,分別用于事件內(nèi)語義對齊和跨事件一致性保存,提升生成效果。
- 端到端訓練:采用統(tǒng)一的訓練方式,同時優(yōu)化指令理解和音頻生成兩個環(huán)節(jié),增強模型各部分之間的協(xié)同作用,提高整體性能。
- 語義令牌與殘差令牌雙通道機制:通過雙通道分別處理宏觀敘事和微觀音效細節(jié),精準協(xié)調(diào)兩者關(guān)系,使生成的音頻既符合整體敘事邏輯,又具備豐富的細節(jié)表現(xiàn)。
- 三階段漸進訓練:從單音生成到音頻協(xié)同,再到長篇敘事,逐步提升模型的性能和適應(yīng)能力,使其能夠更好地應(yīng)對復(fù)雜的長篇敘事音頻生成任務(wù)。
AudioStory的項目地址
- Github倉庫:https://github.com/TencentARC/AudioStory。
- 論文地址:https://arxiv.org/pdf/2508.20088。
AudioStory的應(yīng)用場景
- 視頻配音:根據(jù)用戶提供的無聲視頻和音效風格描述,自動分析視頻內(nèi)容并生成匹配的背景音軌。
- 音頻續(xù)寫:基于給定音頻片段,推斷后續(xù)場景并補充合理的音頻續(xù)集,如為籃球訓練音頻添加球員腳步聲等。
- 有聲書創(chuàng)作:依據(jù)文本描述生成具有時序邏輯和情緒層次的音頻,提升有聲書的聽覺體驗。
- 游戲音效生成:根據(jù)游戲場景描述生成沉浸式音效,增強玩家的游戲體驗。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
排名
熱點
搜索指數(shù)
- 1 重農(nóng)固本是安民之基、治國之要 7904548
- 2 樺加沙強度接近地球上限?回應(yīng)來了 7808918
- 3 廣東部分商超被搬空 只有辣椒被剩下 7713823
- 4 和古人一起沉浸式收割曬谷 7617639
- 5 “晚1秒就撞 我肯定不慣著他” 7524022
- 6 沈陽一室內(nèi)動物園動物神情呆滯 7426677
- 7 護網(wǎng):社交賬號不受控制?木馬在作祟 7329914
- 8 亡妻遺物現(xiàn)存折 老人起訴要錢被駁回 7238208
- 9 全球最強臺風明日登陸廣東 7143472
- 10 盧卡申科:波蘭這么做對中國不友好 7039328