
StableAvatar – 復(fù)旦推出的音頻驅(qū)動(dòng)視頻生成模型
StableAvatar是什么
StableAvatar 是復(fù)旦大學(xué)、微軟亞洲研究院等推出的創(chuàng)新音頻驅(qū)動(dòng)虛擬形象視頻生成模型。模型通過端到端的視頻擴(kuò)散變換器,結(jié)合時(shí)間步感知音頻適配器、音頻原生引導(dǎo)機(jī)制和動(dòng)態(tài)加權(quán)滑動(dòng)窗口策略,能生成無限長度的高質(zhì)量虛擬形象視頻。模型解決了現(xiàn)有模型在長視頻生成中出現(xiàn)的身份一致性、音頻同步和視頻平滑性問題,顯著提升生成視頻的自然度和連貫性,適用虛擬現(xiàn)實(shí)、數(shù)字人創(chuàng)建等場景。
StableAvatar的主要功能
- 高質(zhì)量長視頻生成:支持生成超過3分鐘的高質(zhì)量虛擬形象視頻,保持身份一致性和音頻同步。
- 無需后處理:直接生成視頻,無需使用任何后處理工具(如換臉工具或面部修復(fù)模型)。
- 多樣化應(yīng)用:支持全半身、多人物、卡通形象等多種虛擬形象的動(dòng)畫生成,適用虛擬現(xiàn)實(shí)、數(shù)字人創(chuàng)建、虛擬助手等場景。
StableAvatar的技術(shù)原理
- 時(shí)間步感知音頻適配器:通過時(shí)間步感知調(diào)制和交叉注意力機(jī)制,將音頻嵌入與潛在表示和時(shí)間步嵌入進(jìn)行交互,減少潛在分布的誤差累積。使擴(kuò)散模型能夠更有效地捕捉音頻和潛在特征的聯(lián)合分布。
- 音頻原生引導(dǎo)機(jī)制:替代傳統(tǒng)的分類自由引導(dǎo)(CFG),直接操縱擴(kuò)散模型的采樣分布,將生成過程引導(dǎo)至聯(lián)合音頻-潛在分布。用擴(kuò)散模型自身在去噪過程中不斷演化的聯(lián)合音頻-潛在預(yù)測作為動(dòng)態(tài)引導(dǎo)信號,增強(qiáng)音頻同步和面部表情的自然性。
- 動(dòng)態(tài)加權(quán)滑動(dòng)窗口策略:在生成長視頻時(shí),通過動(dòng)態(tài)加權(quán)滑動(dòng)窗口策略融合潛在表示,用對數(shù)插值動(dòng)態(tài)分配權(quán)重,減少視頻片段之間的過渡不連續(xù)性,提高視頻的平滑性。
StableAvatar的項(xiàng)目地址
項(xiàng)目官網(wǎng):https://francis-rings.github.io/StableAvatar/
GitHub倉庫:https://github.com/Francis-Rings/StableAvatar
HuggingFace模型庫:https://huggingface.co/FrancisRing/StableAvatar
arXiv技術(shù)論文:https://arxiv.org/pdf/2508.08248
StableAvatar的應(yīng)用場景
虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR):通過生成高質(zhì)量的虛擬形象視頻,為用戶提供更加逼真和自然的虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)體驗(yàn),增強(qiáng)用戶的沉浸感。
虛擬助手和客服:為虛擬助手和客服生成自然的面部表情和動(dòng)作,根據(jù)語音指令進(jìn)行實(shí)時(shí)動(dòng)畫響應(yīng),提升用戶體驗(yàn)。
數(shù)字人創(chuàng)建:快速生成具有高度一致性和自然動(dòng)作的數(shù)字人視頻,支持全半身、多人物和卡通形象等多種形式,滿足不同場景的需求。
影視制作:用于生成高質(zhì)量的虛擬角色動(dòng)畫,減少特效制作的時(shí)間和成本,提升影視制作的效率和質(zhì)量。
在線教育和培訓(xùn):為在線教育平臺生成虛擬教師或培訓(xùn)師的動(dòng)畫視頻,根據(jù)語音內(nèi)容進(jìn)行自然的表情和動(dòng)作展示,增強(qiáng)教學(xué)的互動(dòng)性和趣味性。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 家和萬事興 7904322
- 2 老戲骨集體景區(qū)再“上崗” 7808227
- 3 市民臺風(fēng)天堅(jiān)持辦席 飯菜撒一地 7713749
- 4 超大滿月中秋登場 7618877
- 5 美戰(zhàn)爭部長帶3068人做俯臥撐創(chuàng)紀(jì)錄 7520862
- 6 第一批去俄羅斯旅游的人體驗(yàn)如何 7424144
- 7 迪麗熱巴嫦娥造型像神女下凡 7333468
- 8 越南女富豪被捕 曾撒錢踩“鈔票路” 7231626
- 9 79歲羅家英扮唐僧在景區(qū)打工 7144077
- 10 智能表測睡眠是否真靠譜 7040216