
新聞分類
Matrix-Game 2.0 – 昆侖萬維推出的自研世界模型
Matrix-Game 2.0 是昆侖萬維 SkyWork AI 發(fā)布的自研世界模型。是業(yè)內(nèi)首個(gè)開源的通用場景實(shí)時(shí)長序列交互式生成模型,全面開源,推動(dòng)交互式世界模型領(lǐng)域的發(fā)展。模型采用視覺驅(qū)動(dòng)的交互方案,通過 3D 因果變分自編碼器和多模態(tài)擴(kuò)散 Transformer 架構(gòu),實(shí)現(xiàn)低延遲、高幀率的長序列交互性能,能以 25 FPS 的速度生成連續(xù)視頻內(nèi)容,支持分鐘級生成時(shí)長。具備精準(zhǔn)的物理規(guī)律和場景語義理解能力,支持用戶通過簡單指令自由操控虛擬環(huán)境,適用于游戲開發(fā)、虛擬現(xiàn)實(shí)和影視制作等場景。
Matrix-Game 2.0的主要功能
實(shí)時(shí)長序列生成:能以 25 FPS 的速度在多種復(fù)雜場景中穩(wěn)定生成連續(xù)視頻內(nèi)容,生成時(shí)長可擴(kuò)展至分鐘級,顯著提升了連貫性與實(shí)用性。
精準(zhǔn)交互控制:支持用戶通過簡單指令(如鍵盤方向鍵、鼠標(biāo)操作)自由探索、操控虛擬環(huán)境,精準(zhǔn)響應(yīng)用戶的交互操作。
視覺驅(qū)動(dòng)建模:采用視覺驅(qū)動(dòng)的交互世界建模方案,專注于通過視覺理解和物理規(guī)律學(xué)習(xí)來構(gòu)建虛擬世界,避免了語言先驗(yàn)帶來的語義偏置。
多場景泛化能力:具備出色的跨域適應(yīng)性,支持多種風(fēng)格與環(huán)境的模擬,包括城市、野外等空間類型,以及真實(shí)、油畫等視覺風(fēng)格。
增強(qiáng)的物理一致性:角色在面對臺(tái)階、障礙物等復(fù)雜地形時(shí),能展現(xiàn)出符合物理邏輯的運(yùn)動(dòng)行為,提升沉浸感與可控性。
Matrix-Game 2.0的技術(shù)原理
視覺驅(qū)動(dòng)交互世界建模:Matrix-Game 2.0 采用圖像為中心的感知與生成機(jī)制,專注于通過視覺理解和物理規(guī)律學(xué)習(xí)來構(gòu)建虛擬世界,避免了傳統(tǒng)依賴語言提示的生成模式,更真實(shí)、更準(zhǔn)確地理解和生成虛擬世界。
3D 因果變分自編碼器(3D Causal VAE):通過三維因果變分自編碼器實(shí)現(xiàn)空間和時(shí)間維度的高效壓縮,提升建模效率與生成能力。對視頻的時(shí)空特征進(jìn)行編碼和解碼,將視頻壓縮到低維的潛在空間,降低計(jì)算復(fù)雜度,同時(shí)保留關(guān)鍵的時(shí)空信息。
多模態(tài)擴(kuò)散 Transformer(DiT):結(jié)合視覺編碼器與用戶動(dòng)作指令,逐幀生成物理合理的動(dòng)態(tài)視覺序列,通過 3D VAE 解碼成完整視頻。
自回歸擴(kuò)散生成機(jī)制:基于 Self-Forcing 訓(xùn)練策略,通過創(chuàng)新的自回歸擴(kuò)散生成機(jī)制克服了傳統(tǒng)雙向擴(kuò)散模型的延遲和誤差累積問題。通過歷史幀條件生成當(dāng)前幀,減少因依賴未來幀而導(dǎo)致的時(shí)序延遲。
分布匹配蒸餾(DMD):通過最小化與基礎(chǔ)模型之間的分布差異,引導(dǎo)學(xué)生模型學(xué)習(xí)生成高質(zhì)量視頻幀,對齊訓(xùn)練與推理階段的分布,顯著緩解誤差積累問題。
KV 緩存機(jī)制:引入鍵值緩存機(jī)制(KV-Cache),顯著提升長視頻生成的效率和一致性。通過維護(hù)固定長度的注意力上下文,實(shí)現(xiàn)無縫滾動(dòng)生成,支持無限時(shí)長的視頻輸出。
Matrix-Game 2.0的項(xiàng)目地址
項(xiàng)目官網(wǎng):https://matrix-game-v2.github.io/
GitHub倉庫:https://github.com/SkyworkAI/Matrix-Game
HuggingFace模型庫:https://huggingface.co/Skywork/Matrix-Game-2.0
技術(shù)報(bào)告:https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf
Matrix-Game 2.0的應(yīng)用場景
游戲開發(fā):Matrix-Game 2.0 可以在多種游戲場景中生成真實(shí)感更強(qiáng)、符合物理邏輯的可交互視頻,支持角色的動(dòng)態(tài)行為和場景交互,例如在 GTA 和 Minecraft 等游戲場景中模擬車輛運(yùn)作或角色移動(dòng)。
虛擬現(xiàn)實(shí):模型能實(shí)時(shí)生成高質(zhì)量的虛擬環(huán)境,支持用戶通過簡單指令自由探索和操控虛擬世界,為虛擬現(xiàn)實(shí)應(yīng)用提供了強(qiáng)大的技術(shù)支持。
影視制作:Matrix-Game 2.0 可以快速生成高質(zhì)量的虛擬場景和動(dòng)態(tài)內(nèi)容,幫助影視制作團(tuán)隊(duì)高效地創(chuàng)建復(fù)雜的視覺效果和動(dòng)畫場景。
具身智能:Matrix-Game 2.0 提供了具身智能體訓(xùn)練與數(shù)據(jù)生成的技術(shù)支持,為智能體在虛擬環(huán)境中的訓(xùn)練和測試提供了高效的解決方案。
虛擬人和智能交互系統(tǒng):Matrix-Game 2.0 的實(shí)時(shí)交互能力和對物理規(guī)則的理解使其成為虛擬人和智能交互系統(tǒng)的理想解決方案,能生成自然流暢的動(dòng)作和響應(yīng)。
# AI工具# AI項(xiàng)目和框架
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
排名
熱點(diǎn)
搜索指數(shù)
- 1 像石榴籽一樣緊緊抱在一起 7904281
- 2 殲-35完成在福建艦上彈射起飛 7809229
- 3 深圳:建議準(zhǔn)備至少3天的應(yīng)急物資 7713321
- 4 唱著民歌迎豐收 7617971
- 5 日本“蘋果病”流行達(dá)歷史頂點(diǎn) 7523333
- 6 孩子的數(shù)學(xué)邏輯比運(yùn)算結(jié)果重要 7425310
- 7 榴蓮降至15元一斤 7327999
- 8 背簍老人等公交被拒載 司機(jī)被開除 7237623
- 9 苑舉正:中國重回盛世 7136539
- 10 福建艦三型機(jī)彈射成功意味著什么 7045096