新聞分類

科技
互聯(lián)網(wǎng)
- 融資
- 新零售
- 企服
- 共享
- 教育
- 醫(yī)療
- 物聯(lián)網(wǎng)
- 安全
- 智能
- 政策
- 動(dòng)態(tài)
- 技術(shù)
- 軟件
娛樂
- 電影
- 電視劇
- 綜藝
- 動(dòng)漫
- 音樂
- 明星
- 網(wǎng)娛
- 韓娛
- 熱點(diǎn)
- 值得買
游戲
- 手游
- 端游
- 頁游
- 主機(jī)
- 公告
- 攻略
體育
- 業(yè)界
- 足球
- 籃球
- 彩票
汽車
- 車訊
- 新車
- 評測
時(shí)尚
- 奢侈品
- 時(shí)裝
- 美妝
- 美體
健康
- 疾病
- 兩性
- 健美
- 醫(yī)美
- 養(yǎng)生
- 新冠
旅游
母嬰
- 孕產(chǎn)
- 哺育
- 早教
- 親子
- 萌娃
房產(chǎn)
- 資訊
- 家居
- 家電
教育
- 高考
- 考研
- 公考
- 留學(xué)
- 高校
- 小初高
寵物
- 資訊
- 百科
- 訓(xùn)練
- 常識
- 寵物用品
其它
造數(shù)

DeepSeek V3開源模型和OpenAI幾億燒出來的一樣好

智能 PRO 稿源：硅星人Pro 2024-12-27 13:53

像是迷霧中走出的一頭怪獸，DeepSeek V3 在先行“泄露”并引發(fā)一陣驚嘆后，開發(fā)方深度求索正式發(fā)布了技術(shù)報(bào)告。

在這個(gè)報(bào)告中，Deepseek透露了訓(xùn)練的關(guān)鍵數(shù)據(jù)，其中最引人注目的，是它的高效和對算力資源依賴之小，同時(shí)效果又異常的好——

“在預(yù)訓(xùn)練階段，在每個(gè)萬億標(biāo)記上訓(xùn)練 DeepSeek-V3 只需要 180K H800 GPU 小時(shí)，也就是說，在我們的具有 2048 個(gè) H800 GPU 的集群上需要 3.7 天。因此，我們的預(yù)訓(xùn)練階段在不到兩個(gè)月的時(shí)間內(nèi)完成，成本為 2664K GPU 小時(shí)。結(jié)合 119K GPU 小時(shí)的上下文長度擴(kuò)展和 5K GPU 小時(shí)的后訓(xùn)練，DeepSeek-V3 的完整訓(xùn)練成本僅為 2.788M GPU 小時(shí)。假設(shè)H800 GPU的租金為每GPU小時(shí)2美元，我們的總訓(xùn)練成本僅為557萬美元。請注意，上述成本僅包括 DeepSeek-V3 的正式訓(xùn)練，不包括與架構(gòu)、算法或數(shù)據(jù)相關(guān)的先前的研究或精簡實(shí)驗(yàn)的成本?！?/p>

“我們對DeepSeek-V3 進(jìn)行了全面的基準(zhǔn)測試。盡管 DeepSeek-V3-Base 的訓(xùn)練成本較低，但綜合評估表明，DeepSeek-V3-Base已經(jīng)成為目前可用的最強(qiáng)大的開源基礎(chǔ)模型，特別是在代碼和數(shù)學(xué)方面。它的聊天版本在其他開源模型上的表現(xiàn)也優(yōu)于其他開源模型，并在一系列標(biāo)準(zhǔn)和開放式基準(zhǔn)測試中實(shí)現(xiàn)了與 GPT-4o 和 Claude-3.5-Sonnet 等領(lǐng)先閉源模型的性能相當(dāng)?！?/p>

而不久前，Anthropic的CEO達(dá)里奧·阿莫迪曾透露，GPT-4o這樣的模型訓(xùn)練成本約為 1 億美元，而目前正在開發(fā)的AI大模型訓(xùn)練成本可能高達(dá) 10 億美元。未來三年內(nèi)，AI大模型的訓(xùn)練成本將上升至 100 億美元甚至 1000 億美元。

也就是，現(xiàn)在DeepSeek用 550 萬美金 2000 張卡訓(xùn)出的開源模型，和OpenAI幾億燒出的模型一樣好了。

它旋即被再次稱為“國貨之光”，在預(yù)訓(xùn)練撞墻，一切都要扭轉(zhuǎn)到推理階段的變換節(jié)點(diǎn)，deepseek v3 的一系列技術(shù)方法，數(shù)據(jù)指標(biāo)和測試性能，以及口碑，都讓它成了一件事的最好代表：

在“o1”時(shí)代，當(dāng)算力不再是唯一因素，中國模型開發(fā)者的機(jī)會更多了。

“性能對標(biāo)GPT-4o 以及 Claude-3.5-Sonnet”，而且是用開發(fā)者的嘴講出

DeepSeek-V3 為幻方旗下的深度求索公司自研的MoE 模型，671B 參數(shù)，激活 37B，在 14.8T token 上進(jìn)行了預(yù)訓(xùn)練。在Deepseek V3 技術(shù)報(bào)告公布的性能指標(biāo)上來看，這個(gè)開源MoE模型，已經(jīng)在性能上“對齊海外領(lǐng)軍閉源模型”。

根據(jù)它的官方公告，它在多項(xiàng)評測成績上，超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型，并在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

Deepseek羅列了幾個(gè)關(guān)鍵的表現(xiàn)領(lǐng)域：

百科知識：DeepSeek-V3 在知識類任務(wù)（MMLU， MMLU-Pro， GPQA， SimpleQA）上的水平相比前代 DeepSeek-V2.5 顯著提升，接近當(dāng)前表現(xiàn)最好的模型 Claude-3.5-Sonnet-1022。
長文本：在長文本測評中，DROP、FRAMES 和 LongBench v2 上，DeepSeek-V3 平均表現(xiàn)超越其他模型。
代碼：DeepSeek-V3 在算法類代碼場景（Codeforces），遠(yuǎn)遠(yuǎn)領(lǐng)先于市面上已有的全部非 o1 類模型；并在工程類代碼場景（SWE-Bench Verified）逼近 Claude-3.5-Sonnet-1022。
數(shù)學(xué)：在美國數(shù)學(xué)競賽（AIME 2024， MATH）和全國高中數(shù)學(xué)聯(lián)賽（CNMO 2024）上，DeepSeek-V3 大幅超過了所有開源閉源模型。
中文能力：DeepSeek-V3 與 Qwen2.5-72B 在教育類測評 C-Eval 和代詞消歧等評測集上表現(xiàn)相近，但在事實(shí)知識 C-SimpleQA 上更為領(lǐng)先。

這些打榜的行為已經(jīng)是所有新模型的慣例操作，而因?yàn)檫@些官方數(shù)據(jù)是在模型悄悄在社區(qū)以及一些AI Infra平臺上線后才跟著發(fā)布，反而讓它“口碑先行”，在人們紛紛體驗(yàn)了它的媲美頭部模型的能力后，這些數(shù)據(jù)讓開發(fā)者社區(qū)印象更為深刻。

但V3 真正重要的意義不止在于開源再次逼近閉源，還在于它通過各種新的方法，不止在模型層卷，而是把整個(gè)模型的訓(xùn)練和推理當(dāng)做一個(gè)系統(tǒng)來優(yōu)化到了極致，并給出了諸多新的技術(shù)思路。

這一方面也體現(xiàn)在他的生成速度提升上，根據(jù)Deepseek官方，它的生成速度提升至 3 倍。

通過算法和工程上的創(chuàng)新，DeepSeek-V3 的生成吐字速度從 20 TPS 大幅提高至 60 TPS，相比 V2.5 模型實(shí)現(xiàn)了 3 倍的提升，為用戶帶來更加迅速流暢的使用體驗(yàn)。

想體驗(yàn)的可以登陸官網(wǎng) chat.deepseek.com，它也支持 API 訪問。而且，新版本將提供 45 天優(yōu)惠價(jià)格體驗(yàn)期，直至 2025 年2 月8 日。

在技術(shù)報(bào)告和官方正式發(fā)布前，全球開發(fā)者就已經(jīng)對這個(gè)來自東方的“圣誕禮物”歡呼了一陣。

能夠做到“提前泄露”并引起一群自來水測試和把玩的國產(chǎn)模型并不多，無論它是否是Deepseek的某種策略，它確實(shí)證明了自己受關(guān)注和在開發(fā)者社區(qū)里的真實(shí)使用的程度。

根據(jù)Reddit上最早的“泄露”，它在基準(zhǔn)測試LiveBench上評分都擠進(jìn)了前列。整體性能超過了gemini 2 flash，以及Claude 3.5 Sonnet。

而隨后，技術(shù)報(bào)告正式發(fā)布，開發(fā)者開始深挖它究竟做對了什么。

贊譽(yù)一片，“想快進(jìn)到英偉達(dá)泡沫破裂”

簡單來說，DeepSeek-V3 針對分布式推理做了創(chuàng)新的優(yōu)化，進(jìn)而顯著提升了分布式MoE模型的負(fù)載分配效率，這不再只是從算法上，而是從整個(gè)系統(tǒng)上為未來更大規(guī)模的模型提供了新的可擴(kuò)展性框架的可能。尤其在硬件資源有限的情況下，它最大化了效率。

在模型架構(gòu)上，它和此前的V2 一樣繼續(xù)使用Deepseek自己一直相信和沿用的MLA+細(xì)顆粒度的MoE。簡單說就是在注意力機(jī)制上做創(chuàng)新，對內(nèi)存進(jìn)行壓縮，對MoE的運(yùn)行機(jī)制進(jìn)行創(chuàng)新的設(shè)計(jì)。

此外，幾個(gè)亮點(diǎn)包括：

Deepseek V3 使用了輔助損失自由負(fù)載均衡策略（Auxiliary-Loss-Free Load Balancing）。

在混合專家模型（MoE）中，每個(gè)輸入Token會分配給不同的“專家”進(jìn)行計(jì)算。如果分配不均衡（某些專家負(fù)載過高），會導(dǎo)致效率降低和模型性能下降。傳統(tǒng)方法通過增加一個(gè)額外的“輔助損失”來強(qiáng)制均衡負(fù)載，但這會對模型性能造成負(fù)面影響。DeepSeek通過動(dòng)態(tài)調(diào)整專家的偏置值，使輸入Token更均勻地分配給不同的專家，而無需引入額外損失。

這個(gè)方法有趣的地方是，通過監(jiān)控每個(gè)專家的負(fù)載情況，在訓(xùn)練中動(dòng)態(tài)調(diào)整每個(gè)專家的偏置，使得分配更公平。它避免了引入額外的優(yōu)化目標(biāo)，直接在負(fù)載均衡和模型性能之間找到了更優(yōu)解。

另外，在MoE方面的冗余專家機(jī)制（Redundant Experts）也是這種追求平衡的思路。

在推理階段，某些專家可能會因任務(wù)量過多而成為瓶頸。冗余專家機(jī)制通過為高負(fù)載專家創(chuàng)建“副本”，讓這些任務(wù)分配到不同的副本上，緩解了計(jì)算壓力并提升了整體推理速度。這種方法可以顯著提升分布式推理的吞吐量，尤其是在高并發(fā)場景下，實(shí)現(xiàn)了資源的彈性擴(kuò)展和更穩(wěn)定的服務(wù)性能。

這些動(dòng)作相當(dāng)于是告訴那些調(diào)不好參數(shù)和平衡的人們：

我比你們更聰明。那些所謂的負(fù)載矛盾，我可以解決，并同時(shí)保持高水平的推理精度。

多Token預(yù)測目標(biāo)（Multi-Token Prediction Objective， MTP）

傳統(tǒng)語言模型一次只預(yù)測一個(gè)Token，訓(xùn)練信號較為稀疏，數(shù)據(jù)效率低。MTP讓模型在每個(gè)輸入Token的基礎(chǔ)上同時(shí)預(yù)測多個(gè)未來Token，這樣每次訓(xùn)練能提供更多的反饋信號，加速模型的學(xué)習(xí)。也就是，不是簡單地并行預(yù)測多個(gè)Token，而是通過順序預(yù)測保持每個(gè)Token間的因果鏈條。這樣既提升了訓(xùn)練效率，也讓模型在推理時(shí)能夠更好地“規(guī)劃”其輸出。

對FP8 低精度訓(xùn)練的優(yōu)化。

FP8 是一種極低精度的數(shù)據(jù)表示形式，比FP16 和BF16 的精度更低，但占用的內(nèi)存和計(jì)算資源也更少。問題是FP8 的動(dòng)態(tài)范圍有限，容易出現(xiàn)數(shù)值溢出或不足。DeepSeek通過分塊量化，將數(shù)據(jù)分成更小的組進(jìn)行獨(dú)立縮放，這樣可以讓模型更靈活地適應(yīng)輸入數(shù)據(jù)的變化范圍，避免低精度帶來的精度損失。

這種“分塊量化+高精度累加”的策略就是先將數(shù)據(jù)分組，每組單獨(dú)計(jì)算縮放因子，再通過高精度累加器進(jìn)行累加計(jì)算。這種方法結(jié)合FP8 的低資源消耗和高精度運(yùn)算，解決了傳統(tǒng)低精度訓(xùn)練中的不穩(wěn)定性問題。它大幅減少了訓(xùn)練所需的內(nèi)存和計(jì)算成本，同時(shí)保持了與高精度訓(xùn)練相當(dāng)?shù)姆€(wěn)定性和性能。

除了模型方面，在訓(xùn)練設(shè)施上的創(chuàng)新也很關(guān)鍵，比如DualPipe流水線并行策略。

在分布式訓(xùn)練中，多個(gè)GPU需要同時(shí)處理大量數(shù)據(jù)，其中的通信開銷是一個(gè)瓶頸。傳統(tǒng)流水線方法很難做到完全的計(jì)算與通信重疊，造成資源浪費(fèi)。DualPipe通過更精細(xì)的任務(wù)分解和調(diào)度，將計(jì)算和通信時(shí)間完全重疊，從而最大限度地利用了每一塊GPU的性能。這個(gè)設(shè)計(jì)的核心是將數(shù)據(jù)分成小塊，交替執(zhí)行“計(jì)算”和“通信”任務(wù)。通過精確調(diào)整各任務(wù)的優(yōu)先級和資源分配，讓GPU在計(jì)算時(shí)也能同時(shí)處理通信操作，幾乎完全消除了流水線中的“空閑時(shí)間”。除了提升效率，它值得玩味的地方更在于：

它顯著降低了對硬件資源的需求。

技術(shù)報(bào)告發(fā)布后，Deepseek V3 更是受到了猶如暢銷書發(fā)布的待遇——大佬們紛紛為他撰寫推薦“腰封”，體驗(yàn)了它的效果然后又讀了它的技術(shù)報(bào)告的，都在叫好：

推特上各個(gè)大佬紛紛點(diǎn)贊。

Meta的田淵棟也直接表示：

“DeepSeek這真是把H800 hack了底朝天[捂臉]太夸張了”

Andrej Kaparthy也再次贊揚(yáng)Deepseek的技術(shù)報(bào)告值得一讀。

另外一個(gè)有意思的地方是，今天最重要的一些AI Infra創(chuàng)業(yè)公司的創(chuàng)始人們也對Deepseek V3 充滿好感。一個(gè)在推理側(cè)再次推動(dòng)著創(chuàng)新并由此可以刺激市場需求的模型，自然是推理側(cè)的創(chuàng)業(yè)公司們需要和希望客戶們看到的。

硅基流動(dòng)的袁進(jìn)輝在朋友圈點(diǎn)評：

“DeepSeek V3 訓(xùn)練僅用了 2000 張H800，算力成本 6 百萬美元，給海外同行蠻大思想沖擊，很多業(yè)內(nèi)專家都點(diǎn)贊了，算力不是唯一決定因素，聰明的人加創(chuàng)新更讓人敬佩?！?/p>

Lepton的創(chuàng)始人賈揚(yáng)清則在朋友圈和X同時(shí)點(diǎn)評了V3 給他帶來的思考。

?首先，現(xiàn)在我們正式進(jìn)入了分布式推理的時(shí)代。一臺單GPU機(jī)器（80*8=640G）的顯存已經(jīng)裝不下參數(shù)了。新的大顯存機(jī)器確實(shí)能容納模型，但不管怎樣，為了性能和未來擴(kuò)展，分布式推理是不可避免的選擇。

?即使在單個(gè)模型中，也需要關(guān)注 MoE 的負(fù)載均衡，因?yàn)槊看瓮评碇挥写蠹s5%的參數(shù)激活。目前還沒仔細(xì)研究這部分的工作負(fù)載細(xì)節(jié)，但應(yīng)該會很有趣。

?論文中特別提到引入“redundant expert”的概念，正是為了解決這個(gè)問題。這已經(jīng)不是“一個(gè)模型多個(gè)副本”的問題，而是“每個(gè)模型子模塊都有多個(gè)副本”，然后獨(dú)立擴(kuò)縮容。

?輸入token的盈利模式已經(jīng)很明確了。我個(gè)人推測，想讓輸出token變得盈利或至少收支平衡需要更多優(yōu)化。不過如果我們相信“軟件摩爾定律”（每 18 個(gè)月單token成本減半），這就不是問題。

? Tile或block級別的量化是必需的。這也和我們在 Lepton 的觀察一致。我們還支持基于輸入數(shù)據(jù)的動(dòng)態(tài)量化（ahead-of-time dynamic quantization）。另外等硬件支持FP4 以后肯定還有不少可以玩的花樣。

?冷知識：FP4 乘法實(shí)際上就是個(gè)16* 16 的table lookup…

?論文提到，在很多情況下，內(nèi)存帶寬是瓶頸。很期待看看即將推出的NVIDIA新硬件形態(tài)（比如NVL72）能如何提升分布式推理的性能和便捷性。

“Exciting years.” 他說。

在V3 發(fā)布之前，Deepseek曾經(jīng)被海外知名的“爆料+深度分析”的技術(shù)博客又一次提到Deepseek，這個(gè)以芯片領(lǐng)域的一手信息著稱的博客已經(jīng)是對Deepseek最關(guān)注的海外分析師，但它似乎依然沒想到Deepseek的重要性并不在于與OpenAI們用比拼資源的方式比拼創(chuàng)新，在這篇文章中，Semianalysis“爆料”稱Deepseek已經(jīng)有很多很多的卡。但在V3 發(fā)布后，它所指向的方向看來并不如此。

你依然需要萬卡集群，但不是誰的卡多誰燒的錢多誰就理所應(yīng)當(dāng)會贏得一切了。

有網(wǎng)友甚至戲稱：“想快進(jìn)到Nvidia泡沫破裂的時(shí)刻”。

一切都在快速的展開。神話OpenAI們，尤其是以“卡”的名義神話然后看低中國開發(fā)者們自己的模型和Infra創(chuàng)新能力的階段看起來要結(jié)束了。當(dāng)然，前提是你不是只想“跟著喊幾句”的創(chuàng)新，而是你真的做著

聲明：本文來自于微信公眾號硅星人Pro，作者：王兆洋，授權(quán)站長之家轉(zhuǎn)載發(fā)布。

0XU.CN