黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標(biāo)簽
我們會為你匹配適合你的網(wǎng)址導(dǎo)航

    確認(rèn) 跳過

    跳過將刪除所有初始化信息

    您的位置:0XUCN > 資訊 > 智能
    新聞分類

    DeepSeek V3開源模型 和OpenAI幾億燒出來的一樣好

    智能 PRO 稿源:硅星人Pro 2024-12-27 13:53

    像是迷霧中走出的一頭怪獸,DeepSeek V3 在先行“泄露”并引發(fā)一陣驚嘆后,開發(fā)方深度求索正式發(fā)布了技術(shù)報(bào)告。

    在這個(gè)報(bào)告中,Deepseek透露了訓(xùn)練的關(guān)鍵數(shù)據(jù),其中最引人注目的,是它的高效和對算力資源依賴之小,同時(shí)效果又異常的好——

    “在預(yù)訓(xùn)練階段,在每個(gè)萬億標(biāo)記上訓(xùn)練 DeepSeek-V3 只需要 180K H800 GPU 小時(shí),也就是說,在我們的具有 2048 個(gè) H800 GPU 的集群上需要 3.7 天。因此,我們的預(yù)訓(xùn)練階段在不到兩個(gè)月的時(shí)間內(nèi)完成,成本為 2664K GPU 小時(shí)。結(jié)合 119K GPU 小時(shí)的上下文長度擴(kuò)展和 5K GPU 小時(shí)的后訓(xùn)練,DeepSeek-V3 的完整訓(xùn)練成本僅為 2.788M GPU 小時(shí)。假設(shè)H800 GPU的租金為每GPU小時(shí)2美元,我們的總訓(xùn)練成本僅為557萬美元。請注意,上述成本僅包括 DeepSeek-V3 的正式訓(xùn)練,不包括與架構(gòu)、算法或數(shù)據(jù)相關(guān)的先前的研究或精簡實(shí)驗(yàn)的成本?!?/p>

    “我們對DeepSeek-V3 進(jìn)行了全面的基準(zhǔn)測試。盡管 DeepSeek-V3-Base 的訓(xùn)練成本較低,但綜合評估表明,DeepSeek-V3-Base已經(jīng)成為目前可用的最強(qiáng)大的開源基礎(chǔ)模型,特別是在代碼和數(shù)學(xué)方面。它的聊天版本在其他開源模型上的表現(xiàn)也優(yōu)于其他開源模型,并在一系列標(biāo)準(zhǔn)和開放式基準(zhǔn)測試中實(shí)現(xiàn)了與 GPT-4o 和 Claude-3.5-Sonnet 等領(lǐng)先閉源模型的性能相當(dāng)?!?/p>

    而不久前,Anthropic的CEO達(dá)里奧·阿莫迪曾透露,GPT-4o這樣的模型訓(xùn)練成本約為 1 億美元,而目前正在開發(fā)的AI大模型訓(xùn)練成本可能高達(dá) 10 億美元。未來三年內(nèi),AI大模型的訓(xùn)練成本將上升至 100 億美元甚至 1000 億美元。

    也就是,現(xiàn)在DeepSeek用 550 萬美金 2000 張卡訓(xùn)出的開源模型,和OpenAI幾億燒出的模型一樣好了。

    它旋即被再次稱為“國貨之光”,在預(yù)訓(xùn)練撞墻,一切都要扭轉(zhuǎn)到推理階段的變換節(jié)點(diǎn),deepseek v3 的一系列技術(shù)方法,數(shù)據(jù)指標(biāo)和測試性能,以及口碑,都讓它成了一件事的最好代表:

    在“o1”時(shí)代,當(dāng)算力不再是唯一因素,中國模型開發(fā)者的機(jī)會更多了。

    “性能對標(biāo)GPT-4o 以及 Claude-3.5-Sonnet”,而且是用開發(fā)者的嘴講出

    DeepSeek-V3 為幻方旗下的深度求索公司自研的MoE 模型,671B 參數(shù),激活 37B,在 14.8T token 上進(jìn)行了預(yù)訓(xùn)練。在Deepseek V3 技術(shù)報(bào)告公布的性能指標(biāo)上來看,這個(gè)開源MoE模型,已經(jīng)在性能上“對齊海外領(lǐng)軍閉源模型”。

    根據(jù)它的官方公告,它在多項(xiàng)評測成績上,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

    Deepseek羅列了幾個(gè)關(guān)鍵的表現(xiàn)領(lǐng)域:

    • 百科知識:DeepSeek-V3 在知識類任務(wù)(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 顯著提升,接近當(dāng)前表現(xiàn)最好的模型 Claude-3.5-Sonnet-1022。

    • 長文本:在長文本測評中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表現(xiàn)超越其他模型。

    • 代碼:DeepSeek-V3 在算法類代碼場景(Codeforces),遠(yuǎn)遠(yuǎn)領(lǐng)先于市面上已有的全部非 o1 類模型;并在工程類代碼場景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。

    • 數(shù)學(xué):在美國數(shù)學(xué)競賽(AIME 2024, MATH)和全國高中數(shù)學(xué)聯(lián)賽(CNMO 2024)上,DeepSeek-V3 大幅超過了所有開源閉源模型。

    • 中文能力:DeepSeek-V3 與 Qwen2.5-72B 在教育類測評 C-Eval 和代詞消歧等評測集上表現(xiàn)相近,但在事實(shí)知識 C-SimpleQA 上更為領(lǐng)先。

    這些打榜的行為已經(jīng)是所有新模型的慣例操作,而因?yàn)檫@些官方數(shù)據(jù)是在模型悄悄在社區(qū)以及一些AI Infra平臺上線后才跟著發(fā)布,反而讓它“口碑先行”,在人們紛紛體驗(yàn)了它的媲美頭部模型的能力后,這些數(shù)據(jù)讓開發(fā)者社區(qū)印象更為深刻。

    但V3 真正重要的意義不止在于開源再次逼近閉源,還在于它通過各種新的方法,不止在模型層卷,而是把整個(gè)模型的訓(xùn)練和推理當(dāng)做一個(gè)系統(tǒng)來優(yōu)化到了極致,并給出了諸多新的技術(shù)思路。

    這一方面也體現(xiàn)在他的生成速度提升上,根據(jù)Deepseek官方,它的生成速度提升至 3 倍。

    通過算法和工程上的創(chuàng)新,DeepSeek-V3 的生成吐字速度從 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型實(shí)現(xiàn)了 3 倍的提升,為用戶帶來更加迅速流暢的使用體驗(yàn)。

    想體驗(yàn)的可以登陸官網(wǎng) chat.deepseek.com,它也支持 API 訪問。而且,新版本將提供 45 天優(yōu)惠價(jià)格體驗(yàn)期,直至 2025 年2 月8 日。

    在技術(shù)報(bào)告和官方正式發(fā)布前,全球開發(fā)者就已經(jīng)對這個(gè)來自東方的“圣誕禮物”歡呼了一陣。

    能夠做到“提前泄露”并引起一群自來水測試和把玩的國產(chǎn)模型并不多,無論它是否是Deepseek的某種策略,它確實(shí)證明了自己受關(guān)注和在開發(fā)者社區(qū)里的真實(shí)使用的程度。

    根據(jù)Reddit上最早的“泄露”,它在基準(zhǔn)測試LiveBench上評分都擠進(jìn)了前列。整體性能超過了gemini 2 flash,以及Claude 3.5 Sonnet。

    而隨后,技術(shù)報(bào)告正式發(fā)布,開發(fā)者開始深挖它究竟做對了什么。

    贊譽(yù)一片,“想快進(jìn)到英偉達(dá)泡沫破裂”

    簡單來說,DeepSeek-V3 針對分布式推理做了創(chuàng)新的優(yōu)化,進(jìn)而顯著提升了分布式MoE模型的負(fù)載分配效率,這不再只是從算法上,而是從整個(gè)系統(tǒng)上為未來更大規(guī)模的模型提供了新的可擴(kuò)展性框架的可能。尤其在硬件資源有限的情況下,它最大化了效率。

    在模型架構(gòu)上,它和此前的V2 一樣繼續(xù)使用Deepseek自己一直相信和沿用的MLA+細(xì)顆粒度的MoE。簡單說就是在注意力機(jī)制上做創(chuàng)新,對內(nèi)存進(jìn)行壓縮,對MoE的運(yùn)行機(jī)制進(jìn)行創(chuàng)新的設(shè)計(jì)。

    此外,幾個(gè)亮點(diǎn)包括:

    Deepseek V3 使用了輔助損失自由負(fù)載均衡策略(Auxiliary-Loss-Free Load Balancing)。

    在混合專家模型(MoE)中,每個(gè)輸入Token會分配給不同的“專家”進(jìn)行計(jì)算。如果分配不均衡(某些專家負(fù)載過高),會導(dǎo)致效率降低和模型性能下降。傳統(tǒng)方法通過增加一個(gè)額外的“輔助損失”來強(qiáng)制均衡負(fù)載,但這會對模型性能造成負(fù)面影響。DeepSeek通過動(dòng)態(tài)調(diào)整專家的偏置值,使輸入Token更均勻地分配給不同的專家,而無需引入額外損失。

    這個(gè)方法有趣的地方是,通過監(jiān)控每個(gè)專家的負(fù)載情況,在訓(xùn)練中動(dòng)態(tài)調(diào)整每個(gè)專家的偏置,使得分配更公平。它避免了引入額外的優(yōu)化目標(biāo),直接在負(fù)載均衡和模型性能之間找到了更優(yōu)解。

    另外,在MoE方面的冗余專家機(jī)制(Redundant Experts)也是這種追求平衡的思路。

    在推理階段,某些專家可能會因任務(wù)量過多而成為瓶頸。冗余專家機(jī)制通過為高負(fù)載專家創(chuàng)建“副本”,讓這些任務(wù)分配到不同的副本上,緩解了計(jì)算壓力并提升了整體推理速度。這種方法可以顯著提升分布式推理的吞吐量,尤其是在高并發(fā)場景下,實(shí)現(xiàn)了資源的彈性擴(kuò)展和更穩(wěn)定的服務(wù)性能。

    這些動(dòng)作相當(dāng)于是告訴那些調(diào)不好參數(shù)和平衡的人們:

    我比你們更聰明。那些所謂的負(fù)載矛盾,我可以解決,并同時(shí)保持高水平的推理精度。

    多Token預(yù)測目標(biāo)(Multi-Token Prediction Objective, MTP)

    傳統(tǒng)語言模型一次只預(yù)測一個(gè)Token,訓(xùn)練信號較為稀疏,數(shù)據(jù)效率低。MTP讓模型在每個(gè)輸入Token的基礎(chǔ)上同時(shí)預(yù)測多個(gè)未來Token,這樣每次訓(xùn)練能提供更多的反饋信號,加速模型的學(xué)習(xí)。也就是,不是簡單地并行預(yù)測多個(gè)Token,而是通過順序預(yù)測保持每個(gè)Token間的因果鏈條。這樣既提升了訓(xùn)練效率,也讓模型在推理時(shí)能夠更好地“規(guī)劃”其輸出。

    對FP8 低精度訓(xùn)練的優(yōu)化。

    FP8 是一種極低精度的數(shù)據(jù)表示形式,比FP16 和BF16 的精度更低,但占用的內(nèi)存和計(jì)算資源也更少。問題是FP8 的動(dòng)態(tài)范圍有限,容易出現(xiàn)數(shù)值溢出或不足。DeepSeek通過分塊量化,將數(shù)據(jù)分成更小的組進(jìn)行獨(dú)立縮放,這樣可以讓模型更靈活地適應(yīng)輸入數(shù)據(jù)的變化范圍,避免低精度帶來的精度損失。

    這種“分塊量化+高精度累加”的策略就是先將數(shù)據(jù)分組,每組單獨(dú)計(jì)算縮放因子,再通過高精度累加器進(jìn)行累加計(jì)算。這種方法結(jié)合FP8 的低資源消耗和高精度運(yùn)算,解決了傳統(tǒng)低精度訓(xùn)練中的不穩(wěn)定性問題。它大幅減少了訓(xùn)練所需的內(nèi)存和計(jì)算成本,同時(shí)保持了與高精度訓(xùn)練相當(dāng)?shù)姆€(wěn)定性和性能。

    除了模型方面,在訓(xùn)練設(shè)施上的創(chuàng)新也很關(guān)鍵,比如DualPipe流水線并行策略。

    在分布式訓(xùn)練中,多個(gè)GPU需要同時(shí)處理大量數(shù)據(jù),其中的通信開銷是一個(gè)瓶頸。傳統(tǒng)流水線方法很難做到完全的計(jì)算與通信重疊,造成資源浪費(fèi)。DualPipe通過更精細(xì)的任務(wù)分解和調(diào)度,將計(jì)算和通信時(shí)間完全重疊,從而最大限度地利用了每一塊GPU的性能。這個(gè)設(shè)計(jì)的核心是將數(shù)據(jù)分成小塊,交替執(zhí)行“計(jì)算”和“通信”任務(wù)。通過精確調(diào)整各任務(wù)的優(yōu)先級和資源分配,讓GPU在計(jì)算時(shí)也能同時(shí)處理通信操作,幾乎完全消除了流水線中的“空閑時(shí)間”。除了提升效率,它值得玩味的地方更在于:

    它顯著降低了對硬件資源的需求。

    技術(shù)報(bào)告發(fā)布后,Deepseek V3 更是受到了猶如暢銷書發(fā)布的待遇——大佬們紛紛為他撰寫推薦“腰封”,體驗(yàn)了它的效果然后又讀了它的技術(shù)報(bào)告的,都在叫好:

    推特上各個(gè)大佬紛紛點(diǎn)贊。

    Meta的田淵棟也直接表示:

    “DeepSeek這真是把H800 hack了底朝天[捂臉]太夸張了”

    Andrej Kaparthy也再次贊揚(yáng)Deepseek的技術(shù)報(bào)告值得一讀。

    另外一個(gè)有意思的地方是,今天最重要的一些AI Infra創(chuàng)業(yè)公司的創(chuàng)始人們也對Deepseek V3 充滿好感。一個(gè)在推理側(cè)再次推動(dòng)著創(chuàng)新并由此可以刺激市場需求的模型,自然是推理側(cè)的創(chuàng)業(yè)公司們需要和希望客戶們看到的。

    硅基流動(dòng)的袁進(jìn)輝在朋友圈點(diǎn)評:

    “DeepSeek V3 訓(xùn)練僅用了 2000 張H800,算力成本 6 百萬美元,給海外同行蠻大思想沖擊,很多業(yè)內(nèi)專家都點(diǎn)贊了,算力不是唯一決定因素,聰明的人加創(chuàng)新更讓人敬佩?!?/p>

    Lepton的創(chuàng)始人賈揚(yáng)清則在朋友圈和X同時(shí)點(diǎn)評了V3 給他帶來的思考。

    ?首先,現(xiàn)在我們正式進(jìn)入了分布式推理的時(shí)代。一臺單GPU機(jī)器(80*8=640G)的顯存已經(jīng)裝不下參數(shù)了。新的大顯存機(jī)器確實(shí)能容納模型,但不管怎樣,為了性能和未來擴(kuò)展,分布式推理是不可避免的選擇。

    ?即使在單個(gè)模型中,也需要關(guān)注 MoE 的負(fù)載均衡,因?yàn)槊看瓮评碇挥写蠹s5%的參數(shù)激活。目前還沒仔細(xì)研究這部分的工作負(fù)載細(xì)節(jié),但應(yīng)該會很有趣。

    ?論文中特別提到引入“redundant expert”的概念,正是為了解決這個(gè)問題。這已經(jīng)不是“一個(gè)模型多個(gè)副本”的問題,而是“每個(gè)模型子模塊都有多個(gè)副本”,然后獨(dú)立擴(kuò)縮容。

    ?輸入token的盈利模式已經(jīng)很明確了。我個(gè)人推測,想讓輸出token變得盈利或至少收支平衡需要更多優(yōu)化。不過如果我們相信“軟件摩爾定律”(每 18 個(gè)月單token成本減半),這就不是問題。

    ? Tile或block級別的量化是必需的。這也和我們在 Lepton 的觀察一致。我們還支持基于輸入數(shù)據(jù)的動(dòng)態(tài)量化(ahead-of-time dynamic quantization)。另外等硬件支持FP4 以后肯定還有不少可以玩的花樣。

    ?冷知識:FP4 乘法實(shí)際上就是個(gè)16* 16 的table lookup…

    ?論文提到,在很多情況下,內(nèi)存帶寬是瓶頸。很期待看看即將推出的NVIDIA新硬件形態(tài)(比如NVL72)能如何提升分布式推理的性能和便捷性。

    “Exciting years.” 他說。

    在V3 發(fā)布之前,Deepseek曾經(jīng)被海外知名的“爆料+深度分析”的技術(shù)博客又一次提到Deepseek,這個(gè)以芯片領(lǐng)域的一手信息著稱的博客已經(jīng)是對Deepseek最關(guān)注的海外分析師,但它似乎依然沒想到Deepseek的重要性并不在于與OpenAI們用比拼資源的方式比拼創(chuàng)新,在這篇文章中,Semianalysis“爆料”稱Deepseek已經(jīng)有很多很多的卡。但在V3 發(fā)布后,它所指向的方向看來并不如此。

    你依然需要萬卡集群,但不是誰的卡多誰燒的錢多誰就理所應(yīng)當(dāng)會贏得一切了。

    有網(wǎng)友甚至戲稱:“想快進(jìn)到Nvidia泡沫破裂的時(shí)刻”。

    一切都在快速的展開。神話OpenAI們,尤其是以“卡”的名義神話然后看低中國開發(fā)者們自己的模型和Infra創(chuàng)新能力的階段看起來要結(jié)束了。當(dāng)然,前提是你不是只想“跟著喊幾句”的創(chuàng)新,而是你真的做著

    聲明:本文來自于微信公眾號硅星人Pro,作者:王兆洋,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

    0XU.CN

    [超站]友情鏈接:

    四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
    關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

    圖庫
    公眾號 關(guān)注網(wǎng)絡(luò)尖刀微信公眾號
    隨時(shí)掌握互聯(lián)網(wǎng)精彩
    贊助鏈接