
豆包又把算力成本“打了下來(lái)” 但壓力才剛剛開(kāi)始
今日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)提出了全新的稀疏模型架構(gòu) UltraMem,該架構(gòu)有效解決了MoE推理時(shí)高額的訪存問(wèn)題,推理速度較 MoE 架構(gòu)提升2-6倍,推理成本最高可降低83%。
目前,國(guó)內(nèi)外大模型領(lǐng)域的競(jìng)爭(zhēng)愈發(fā)激烈,已然進(jìn)入白熱化階段。豆包在AI基礎(chǔ)層和應(yīng)用層上均進(jìn)行了全面布局,并持續(xù)迭代升級(jí)。
▍大模型持續(xù)降本增效
根據(jù)豆包大模型團(tuán)隊(duì)的研究,在Transformer架構(gòu)下,模型的性能與其參數(shù)數(shù)量和計(jì)算復(fù)雜度呈對(duì)數(shù)關(guān)系。隨著LLM規(guī)模不斷增大,推理成本會(huì)急劇增加,速度變慢。
盡管MoE(混合專家)架構(gòu)已經(jīng)成功將計(jì)算和參數(shù)解耦,但在推理時(shí),較小的batch size就會(huì)激活全部專家,導(dǎo)致訪存急劇上升,進(jìn)而使推理延遲大幅增加。
字節(jié)跳動(dòng)豆包大模型Foundation團(tuán)隊(duì)提出了UltraMem,這是一種同樣將計(jì)算和參數(shù)解耦的稀疏模型架構(gòu),在保證模型效果的前提下解決了推理的訪存問(wèn)題。
實(shí)驗(yàn)結(jié)果表明,在參數(shù)和激活條件相同的情況下,UltraMem在模型效果上超越了MoE,并將推理速度提升了2-6倍。此外,在常見(jiàn)batch size規(guī)模下,UltraMem的訪存成本幾乎與同計(jì)算量的Dense模型相當(dāng)。
可以看到,不論是訓(xùn)練端還是推理端,大模型廠商均在力爭(zhēng)降本增效。核心原因是隨著模型規(guī)模的擴(kuò)大,推理成本和訪存效率已成為限制大模型規(guī)模應(yīng)用的關(guān)鍵瓶頸,而DeepSeek已經(jīng)走通了“低成本高性能”突破的這條路。
巖芯數(shù)智CEO劉凡平在接受《科創(chuàng)板日?qǐng)?bào)》記者采訪分析認(rèn)為,降低大模型的成本,業(yè)內(nèi)更傾向于從技術(shù)和工程層面進(jìn)行突破,實(shí)現(xiàn)架構(gòu)優(yōu)化的“彎道超車(chē)”?;A(chǔ)架構(gòu),如Transformer架構(gòu)成本依舊高企,新的架構(gòu)研究必須要有;基礎(chǔ)算法,主要是反向傳播算法,這類算法可能是深度學(xué)習(xí)的瓶頸。
在劉凡平看來(lái),短期內(nèi),高端芯片市場(chǎng)仍然還是會(huì)由英偉達(dá)主導(dǎo)。推理應(yīng)用市場(chǎng)需求在增加,國(guó)產(chǎn)GPU公現(xiàn)在也有機(jī)會(huì)。從長(zhǎng)期來(lái)看,算法一旦創(chuàng)新出的結(jié)果,還是比較驚人,整個(gè)算力市場(chǎng)需求后期有待觀察。
▍豆包的壓力才剛剛開(kāi)始
在剛剛過(guò)去的春節(jié),DeepSeek以其低廉的訓(xùn)練成本和高效的運(yùn)算效率迅速火爆全球,成為AI領(lǐng)域的黑馬。目前,國(guó)內(nèi)外大模型領(lǐng)域的競(jìng)爭(zhēng)愈發(fā)激烈,已然進(jìn)入白熱化階段。
DeeSeek是目前國(guó)內(nèi)大模型中,豆包最強(qiáng)勁的對(duì)手,前者在1月28日的日活躍用戶數(shù)首次超越后者。目前DeepSeek的日活數(shù)據(jù)已經(jīng)突破4000萬(wàn),成為中國(guó)移動(dòng)互聯(lián)網(wǎng)歷史上第一個(gè)上線不足一個(gè)月,但闖進(jìn)全網(wǎng)日活Top50的應(yīng)用。
近幾日,豆包大模型團(tuán)隊(duì)連續(xù)發(fā)力。兩天前,其剛剛發(fā)布視頻生成實(shí)驗(yàn)?zāi)P汀癡ideoWorld”,不同于 Sora 、DALL-E 、Midjourney 等主流多模態(tài)模型,VideoWorld 在業(yè)界首次實(shí)現(xiàn)無(wú)需依賴語(yǔ)言模型,即可認(rèn)知世界。
目前,豆包在AI基礎(chǔ)層和應(yīng)用層進(jìn)行了全面布局,并持續(xù)迭代升級(jí)。其AI產(chǎn)品矩陣已涵蓋多個(gè)領(lǐng)域,如AI聊天助手豆包、貓箱、即夢(mèng)AI、星繪、豆包MarsCode等。
2月12日,豆包概念股午后快速走高。據(jù)Wind數(shù)據(jù)顯示,抖音豆包指數(shù)2月以來(lái)累計(jì)漲幅已超15%。個(gè)股方面,博彥科技強(qiáng)勢(shì)漲停,漢得信息快速拉升一度漲停,廣和通、先進(jìn)數(shù)通等盤(pán)中沖高。
中信證券此前發(fā)布研報(bào)認(rèn)為,豆包AI的生態(tài)擴(kuò)張將引發(fā)新一輪巨頭的技術(shù)投資周期。AI產(chǎn)業(yè)具有強(qiáng)網(wǎng)絡(luò)效應(yīng)和規(guī)模效應(yīng),當(dāng)頭部AI應(yīng)用獲得用戶領(lǐng)先優(yōu)勢(shì)后,其模型精準(zhǔn)度、邊際成本以及用戶粘性等競(jìng)爭(zhēng)優(yōu)勢(shì)將逐漸加強(qiáng)。
豆包用戶數(shù)持續(xù)增長(zhǎng),基于豆包AI的應(yīng)用生態(tài)將有望加速,一方面,將催化公司對(duì)AI訓(xùn)練及推理算力基礎(chǔ)設(shè)施投資,另一方面,豆包AI的快速增長(zhǎng)將刺激其它巨頭廠商加大對(duì)AI基礎(chǔ)設(shè)施投資。
但是對(duì)于豆包自己而言,與尖子生DeepSeek的較量或許才剛剛開(kāi)始。
作為一個(gè)開(kāi)源模型,DeepSeek的低成本和高性能正在改變不少公司的模型選擇策略。目前,華為、百度等公司旗下的不少AI應(yīng)用都宣布了接入DeepSeek,甚至字節(jié)跳動(dòng)自己,旗下的飛書(shū)的多維表格功能已接入DeepSeek-R1模型,火山引擎也做了適配。
據(jù)《科創(chuàng)板日?qǐng)?bào)》記者了解,目前,豆包團(tuán)隊(duì)內(nèi)部還在討論豆包App是否要接入DeepSeek,從用戶體驗(yàn)的角度來(lái)講,選擇一個(gè)效果更優(yōu)的模型無(wú)可厚非,但是放棄自家模型選擇友商,也很難向股東交代。這還不考慮,新增模型接入,增加適配負(fù)擔(dān)等問(wèn)題。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 中美完全可以相互成就、共同繁榮 7904098
- 2 蔡國(guó)強(qiáng)始祖鳥(niǎo)發(fā)布致歉信 7808747
- 3 墜落廣東的火流星被挖出 重423公斤 7712574
- 4 近距離感受“大國(guó)重器” 7619429
- 5 菲將舉行大規(guī)模游行 中使館發(fā)提醒 7521663
- 6 女生留學(xué)9天遭電詐后墜亡 細(xì)節(jié)曝光 7426653
- 7 始祖鳥(niǎo)煙花秀引爭(zhēng)議 日喀則通報(bào) 7329303
- 8 特朗普:我們?cè)跒蹩颂m戰(zhàn)爭(zhēng)中賺錢(qián)了 7236781
- 9 中小學(xué)春秋假還沒(méi)推廣 難在哪 7140943
- 10 60后大一新生稱可請(qǐng)妻子開(kāi)家長(zhǎng)會(huì) 7047155