AudioStory – 騰訊ARC推出的音頻生成模型

智能 2025-09-03 13:55

聲明：該文章來自（AI工具集）版權(quán)由原作者所有，K2OS渲染引擎提供網(wǎng)頁加速服務(wù)。

AudioStory是什么

AudioStory 是騰訊 ARC 實驗室發(fā)布的音頻生成技術(shù)，能根據(jù)自然語言描述生成高質(zhì)量的長篇敘事音頻。采用分而治之策略，將復(fù)雜敘事請求拆解為有序子任務(wù)，通過解耦橋接機制，精準協(xié)調(diào)語義與音效細節(jié)。端到端訓練方式，提升了模型協(xié)同作用，生成的音頻具有時序邏輯與情緒層次。

AudioStory的主要功能

視頻自動配音：用戶上傳無聲視頻并描述音效風格，AudioStory可自動分析視頻內(nèi)容，生成與之同步且風格統(tǒng)一的背景音軌。
音頻智能續(xù)寫：給定一段音頻，AudioStory能智能推斷后續(xù)場景，自動補充合理的音頻續(xù)集，如根據(jù)籃球訓練的教練聲音補充球員腳步聲、籃球拍打聲等。
有聲書創(chuàng)作：為有聲書提供高質(zhì)量的音頻內(nèi)容，根據(jù)文本描述生成具有時序邏輯與情緒層次的音頻，讓聽眾更好地沉浸在故事中。
游戲音效制作：為游戲生成沉浸式的音效，根據(jù)游戲場景描述生成匹配的音頻，增強玩家的游戲體驗。
智能播客：幫助播客創(chuàng)作者快速生成音頻內(nèi)容，根據(jù)話題描述生成相應(yīng)的音頻片段，提高創(chuàng)作效率。

AudioStory的技術(shù)原理

分而治之策略：將復(fù)雜的敘事請求拆解為有順序的子任務(wù)，分別生成對應(yīng)的音頻片段，再按時間軸精準編排，確保整體音頻的連貫性和邏輯性。
解耦橋接機制：將大語言模型與音頻生成器的合作分解為橋梁查詢和殘差查詢兩個組件，分別用于事件內(nèi)語義對齊和跨事件一致性保存，提升生成效果。
端到端訓練：采用統(tǒng)一的訓練方式，同時優(yōu)化指令理解和音頻生成兩個環(huán)節(jié)，增強模型各部分之間的協(xié)同作用，提高整體性能。
語義令牌與殘差令牌雙通道機制：通過雙通道分別處理宏觀敘事和微觀音效細節(jié)，精準協(xié)調(diào)兩者關(guān)系，使生成的音頻既符合整體敘事邏輯，又具備豐富的細節(jié)表現(xiàn)。
三階段漸進訓練：從單音生成到音頻協(xié)同，再到長篇敘事，逐步提升模型的性能和適應(yīng)能力，使其能夠更好地應(yīng)對復(fù)雜的長篇敘事音頻生成任務(wù)。