豆包又把算力成本“打了下來(lái)” 但壓力才剛剛開(kāi)始

智能 PRO 稿源：科創(chuàng)板日?qǐng)?bào) 2025-02-12 21:40

今日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)提出了全新的稀疏模型架構(gòu) UltraMem，該架構(gòu)有效解決了MoE推理時(shí)高額的訪存問(wèn)題，推理速度較 MoE 架構(gòu)提升2-6倍，推理成本最高可降低83%。

目前，國(guó)內(nèi)外大模型領(lǐng)域的競(jìng)爭(zhēng)愈發(fā)激烈，已然進(jìn)入白熱化階段。豆包在AI基礎(chǔ)層和應(yīng)用層上均進(jìn)行了全面布局，并持續(xù)迭代升級(jí)。

▍大模型持續(xù)降本增效

根據(jù)豆包大模型團(tuán)隊(duì)的研究，在Transformer架構(gòu)下，模型的性能與其參數(shù)數(shù)量和計(jì)算復(fù)雜度呈對(duì)數(shù)關(guān)系。隨著LLM規(guī)模不斷增大，推理成本會(huì)急劇增加，速度變慢。

盡管MoE（混合專家）架構(gòu)已經(jīng)成功將計(jì)算和參數(shù)解耦，但在推理時(shí)，較小的batch size就會(huì)激活全部專家，導(dǎo)致訪存急劇上升，進(jìn)而使推理延遲大幅增加。

字節(jié)跳動(dòng)豆包大模型Foundation團(tuán)隊(duì)提出了UltraMem，這是一種同樣將計(jì)算和參數(shù)解耦的稀疏模型架構(gòu)，在保證模型效果的前提下解決了推理的訪存問(wèn)題。

實(shí)驗(yàn)結(jié)果表明，在參數(shù)和激活條件相同的情況下，UltraMem在模型效果上超越了MoE，并將推理速度提升了2-6倍。此外，在常見(jiàn)batch size規(guī)模下，UltraMem的訪存成本幾乎與同計(jì)算量的Dense模型相當(dāng)。

可以看到，不論是訓(xùn)練端還是推理端，大模型廠商均在力爭(zhēng)降本增效。核心原因是隨著模型規(guī)模的擴(kuò)大，推理成本和訪存效率已成為限制大模型規(guī)模應(yīng)用的關(guān)鍵瓶頸，而DeepSeek已經(jīng)走通了“低成本高性能”突破的這條路。

巖芯數(shù)智CEO劉凡平在接受《科創(chuàng)板日?qǐng)?bào)》記者采訪分析認(rèn)為，降低大模型的成本，業(yè)內(nèi)更傾向于從技術(shù)和工程層面進(jìn)行突破，實(shí)現(xiàn)架構(gòu)優(yōu)化的“彎道超車(chē)”?；A(chǔ)架構(gòu)，如Transformer架構(gòu)成本依舊高企，新的架構(gòu)研究必須要有；基礎(chǔ)算法，主要是反向傳播算法，這類算法可能是深度學(xué)習(xí)的瓶頸。

在劉凡平看來(lái)，短期內(nèi)，高端芯片市場(chǎng)仍然還是會(huì)由英偉達(dá)主導(dǎo)。推理應(yīng)用市場(chǎng)需求在增加，國(guó)產(chǎn)GPU公現(xiàn)在也有機(jī)會(huì)。從長(zhǎng)期來(lái)看，算法一旦創(chuàng)新出的結(jié)果，還是比較驚人，整個(gè)算力市場(chǎng)需求后期有待觀察。

▍豆包的壓力才剛剛開(kāi)始

在剛剛過(guò)去的春節(jié)，DeepSeek以其低廉的訓(xùn)練成本和高效的運(yùn)算效率迅速火爆全球，成為AI領(lǐng)域的黑馬。目前，國(guó)內(nèi)外大模型領(lǐng)域的競(jìng)爭(zhēng)愈發(fā)激烈，已然進(jìn)入白熱化階段。

DeeSeek是目前國(guó)內(nèi)大模型中，豆包最強(qiáng)勁的對(duì)手，前者在1月28日的日活躍用戶數(shù)首次超越后者。目前DeepSeek的日活數(shù)據(jù)已經(jīng)突破4000萬(wàn)，成為中國(guó)移動(dòng)互聯(lián)網(wǎng)歷史上第一個(gè)上線不足一個(gè)月，但闖進(jìn)全網(wǎng)日活Top50的應(yīng)用。

近幾日，豆包大模型團(tuán)隊(duì)連續(xù)發(fā)力。兩天前，其剛剛發(fā)布視頻生成實(shí)驗(yàn)?zāi)Ｐ汀癡ideoWorld”，不同于 Sora 、DALL-E 、Midjourney 等主流多模態(tài)模型，VideoWorld 在業(yè)界首次實(shí)現(xiàn)無(wú)需依賴語(yǔ)言模型，即可認(rèn)知世界。

目前，豆包在AI基礎(chǔ)層和應(yīng)用層進(jìn)行了全面布局，并持續(xù)迭代升級(jí)。其AI產(chǎn)品矩陣已涵蓋多個(gè)領(lǐng)域，如AI聊天助手豆包、貓箱、即夢(mèng)AI、星繪、豆包MarsCode等。

2月12日，豆包概念股午后快速走高。據(jù)Wind數(shù)據(jù)顯示，抖音豆包指數(shù)2月以來(lái)累計(jì)漲幅已超15%。個(gè)股方面，博彥科技強(qiáng)勢(shì)漲停，漢得信息快速拉升一度漲停，廣和通、先進(jìn)數(shù)通等盤(pán)中沖高。

中信證券此前發(fā)布研報(bào)認(rèn)為，豆包AI的生態(tài)擴(kuò)張將引發(fā)新一輪巨頭的技術(shù)投資周期。AI產(chǎn)業(yè)具有強(qiáng)網(wǎng)絡(luò)效應(yīng)和規(guī)模效應(yīng)，當(dāng)頭部AI應(yīng)用獲得用戶領(lǐng)先優(yōu)勢(shì)后，其模型精準(zhǔn)度、邊際成本以及用戶粘性等競(jìng)爭(zhēng)優(yōu)勢(shì)將逐漸加強(qiáng)。

豆包用戶數(shù)持續(xù)增長(zhǎng)，基于豆包AI的應(yīng)用生態(tài)將有望加速，一方面，將催化公司對(duì)AI訓(xùn)練及推理算力基礎(chǔ)設(shè)施投資，另一方面，豆包AI的快速增長(zhǎng)將刺激其它巨頭廠商加大對(duì)AI基礎(chǔ)設(shè)施投資。

但是對(duì)于豆包自己而言，與尖子生DeepSeek的較量或許才剛剛開(kāi)始。

作為一個(gè)開(kāi)源模型，DeepSeek的低成本和高性能正在改變不少公司的模型選擇策略。目前，華為、百度等公司旗下的不少AI應(yīng)用都宣布了接入DeepSeek，甚至字節(jié)跳動(dòng)自己，旗下的飛書(shū)的多維表格功能已接入DeepSeek-R1模型，火山引擎也做了適配。

據(jù)《科創(chuàng)板日?qǐng)?bào)》記者了解，目前，豆包團(tuán)隊(duì)內(nèi)部還在討論豆包App是否要接入DeepSeek，從用戶體驗(yàn)的角度來(lái)講，選擇一個(gè)效果更優(yōu)的模型無(wú)可厚非，但是放棄自家模型選擇友商，也很難向股東交代。這還不考慮，新增模型接入，增加適配負(fù)擔(dān)等問(wèn)題。

0XU.CN