DeepSeek甩出了一張“王炸”

智能 2024-12-29 15:12

聲明：該文章來(lái)自（虎嗅網(wǎng)）版權(quán)由原作者所有，K2OS渲染引擎提供網(wǎng)頁(yè)加速服務(wù)。

12月26日消息，國(guó)產(chǎn)大模型DeepSeek推出DeepSeek-V3，一個(gè)強(qiáng)大的混合專(zhuān)家（Mixture-of-Experts, MoE）語(yǔ)言模型。主要的技術(shù)迭代是671B的MoE，37B的激活參數(shù)，在14.8萬(wàn)億個(gè)高質(zhì)量token上進(jìn)行了預(yù)訓(xùn)練。

AI圈表示，“圣誕節(jié)真的來(lái)了”。

翻譯翻譯，首先，從訓(xùn)練時(shí)間看，正如DeepSeek在發(fā)布報(bào)告中指出的那樣，“盡管其表現(xiàn)出色，DeepSeek-V3的完整訓(xùn)練僅需2.788M H800 GPU小時(shí)?！?/strong>

打個(gè)比方，如果對(duì)標(biāo)Llama 3 系列模型，其計(jì)算預(yù)算為 3930 萬(wàn) H100 GPU Hours——?大約可以訓(xùn)練 DeepSeek-V3 十五次。

從成本上看，如果我們假設(shè)?H800 GPU?的租金為每?GPU?小時(shí)?2?美元，DeepSeek-V3 的總訓(xùn)練成本僅為?557.6萬(wàn)美元。

不僅如此，在最新發(fā)布的技術(shù)報(bào)告里，經(jīng)過(guò)與DeepSeek-V2.5、Qwen2.5-72B-Inst、Llama-3.1-405B-Inst、GPT-4o-0513和Claude-3.5-Sonnet-1022幾個(gè)模型的跑分，?DeepSeek-V3 在多個(gè)性能基準(zhǔn)測(cè)試中表現(xiàn)出色。

在MATH500、AIME2024和Codeforces三個(gè)維度更是遙遙領(lǐng)先，數(shù)學(xué)和編程能力極強(qiáng)，一度超過(guò)?GPT-4o 和 Claude 3.5 Sonnet 這兩大領(lǐng)先的閉源模型。

雖然在某些語(yǔ)言理解和軟件工程任務(wù)中稍有遜色，但也是TOP2尖子選手。

DeepSeek自言，這得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架構(gòu)，實(shí)現(xiàn)了高效的推理和經(jīng)濟(jì)高效的訓(xùn)練。

又引入了輔助損失自由負(fù)載平衡策略和多token預(yù)測(cè)訓(xùn)練目標(biāo)，提升了模型性能。同時(shí)，在14.8萬(wàn)億個(gè)高質(zhì)量token上進(jìn)行了預(yù)訓(xùn)練時(shí)，通過(guò)監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)階段充分挖掘了其潛力。

綜合評(píng)估顯示，DeepSeek-V3優(yōu)于其他開(kāi)源模型，性能接近領(lǐng)先的閉源模型。并且，訓(xùn)練過(guò)程非常穩(wěn)定，沒(méi)有遇到不可恢復(fù)的損失峰值或回滾。相比之下，在同一天，ChatGPT再次宕機(jī)，修復(fù)時(shí)間尚未確定。

Meta AI 研究科學(xué)家田淵棟在X上對(duì) DeepSeek-V3 “極有限的預(yù)算”和“強(qiáng)勁的表現(xiàn)”深感驚喜。

曾為 Glean 和 Google Search 的創(chuàng)始團(tuán)隊(duì)成員的 VC Deedy更是將DeepSeek-V3贊為“世界上最好的開(kāi)源大模型”。

DeepSeek-V3的基礎(chǔ)模型以英語(yǔ)和中文為主的多語(yǔ)言語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練，因此主要在一系列以英語(yǔ)和中文為主的基準(zhǔn)測(cè)試上評(píng)估其性能，同時(shí)也在一個(gè)多語(yǔ)言基準(zhǔn)測(cè)試上進(jìn)行評(píng)估。而基于其內(nèi)部集成的HAI-LLM框架，具體跑分如下：

如上可以看到 V3 在英語(yǔ)、編程、數(shù)學(xué)、中文、多語(yǔ)言幾個(gè)維度的表現(xiàn)。

英語(yǔ)（English）：DeepSeek-V3 Base 在大多數(shù)測(cè)試中表現(xiàn)最佳，例如在 BBH(EM)、MMLU(EM)、MMLU-Redux(EM)、DROP(F1)、ARC-Easy(EM)、ARC-Challenge(EM)、HellaSwag(EM)、PIQA(EM)、WinoGrande(EM)、TriviaQA(EM) 和 AGIEval(EM) 等測(cè)試中。在 Pile-test(BPB) 基準(zhǔn)測(cè)試中，DeepSeek-V3 Base 的得分為 0.548，也略高于其他模型。

代碼（Code）：DeepSeek-V3 Base 在 HumanEval(Pass@1)、MBPP(Pass@1)、LiveCodeBench-Base(Pass@1)、CRUXEval-I(EM) 和 CRUXEval-O(EM) 等測(cè)試中表現(xiàn)突出。

數(shù)學(xué)（Math）：DeepSeek-V3 Base 在 GSM8K(EM)、MATH(EM)、MGSM(EM) 和 CMath(EM) 等測(cè)試中表現(xiàn)優(yōu)異。

中文（Chinese）：DeepSeek-V3 Base 在 CLUEWSC(EM)、C-Eval(EM)、CMMLU(EM)、CMRC(EM)、C3(EM) 和 CCPM(EM) 等測(cè)試中表現(xiàn)良好。

多語(yǔ)言（Multilingual）：DeepSeek-V3 Base 在 MMMLU-non-English(EM) 測(cè)試中表現(xiàn)最佳。

由于DeepSeek“大方”開(kāi)源，Open AI水靈靈地被網(wǎng)友cue進(jìn)行橫向?qū)Ρ?，有一種被push的支配感。

不少玩家還在X上分享了自己的使用體驗(yàn)，認(rèn)為DeepSeek-V3?很“聰明”，并對(duì)Deepseek團(tuán)隊(duì)表示極大的尊重。

DeepSeek 是一家創(chuàng)新型科技公司，長(zhǎng)久以來(lái)專(zhuān)注于開(kāi)發(fā)先進(jìn)的大語(yǔ)言模型（LLM）和相關(guān)技術(shù)，由知名私募巨頭幻方量化孕育而生，作為大廠外唯一一家儲(chǔ)備萬(wàn)張 A100 芯片的公司，幻方量化為DeepSeek的技術(shù)研發(fā)提供了強(qiáng)大的硬件支持。

早在通過(guò)開(kāi)源大模型如 DeepSeek Coder 等，DeepSeek 就展示了在人工智能技術(shù)領(lǐng)域的實(shí)力。DeepSeek V2 模型的發(fā)布，更是提供了一種史無(wú)前例的性?xún)r(jià)比，推動(dòng)了中國(guó)大模型價(jià)格戰(zhàn)的發(fā)展，并因其創(chuàng)新的 MLA 架構(gòu)和 DeepSeekMoESparse 結(jié)構(gòu)而受到業(yè)界的廣泛關(guān)注。

DeepSeek 被硅谷譽(yù)為“來(lái)自東方的神秘力量”，其 V2 模型論文在當(dāng)時(shí)即被認(rèn)為可能是今年最好的一篇。

半年后，DeepSeek 帶著 V3 再次登場(chǎng)，用行動(dòng)說(shuō)明，中國(guó)大模型創(chuàng)業(yè)者，也可以加入到這場(chǎng)全球技術(shù)創(chuàng)新的 AI 競(jìng)賽中。

[超站]友情鏈接：

四季很好，只要有你，文娛排行榜：https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全，洞悉企業(yè)級(jí)服務(wù)市場(chǎng)：https://www.ijiandao.com/

*文章為作者獨(dú)立觀點(diǎn)，不代表 0XUCN 立場(chǎng)

本文由延安安發(fā)表，轉(zhuǎn)載此文章須經(jīng)作者同意，并請(qǐng)附上出處(0XUCN)及本頁(yè)鏈接。

原文鏈接 http://jjbxz.cn/article/intelnet/intelligent/53467.html

DeepSeek 虎嗅網(wǎng) DeepSeek-V3 Google Search

圖庫(kù)

小何同學(xué)yo：不要冰冷的拒絕他人，在拒絕之前要表達(dá)肯定和感謝。

三月Suil你要相信和對(duì)的人在一起真的可以掃落你生命里的塵埃

丹羽仁希流浪的貓很自由用心的人會(huì)把花養(yǎng)好

NOWWA 挪瓦咖啡

金允珍吶失敗是成功他媽?zhuān)俏乙呀?jīng)有很多媽了，可一個(gè)懷孕的也沒(méi)有

小仙天菜肆意舒適自在愛(ài)我自己 - 小紅書(shū)

百度熱搜榜

排名熱點(diǎn) 搜索指數(shù)

1 像石榴籽一樣緊緊抱在一起 7904256

2 殲-35完成在福建艦上彈射起飛 7809675

3 深圳：建議準(zhǔn)備至少3天的應(yīng)急物資 7713223

4 唱著民歌迎豐收 7619347

5 日本“蘋(píng)果病”流行達(dá)歷史頂點(diǎn) 7521128

6 孩子的數(shù)學(xué)邏輯比運(yùn)算結(jié)果重要 7424556

7 背簍老人等公交被拒載司機(jī)被開(kāi)除 7327798

8 榴蓮降至15元一斤 7237089

9 美團(tuán)回應(yīng)外賣(mài)功能癱瘓 7136268

10 港珠澳大橋主橋?qū)⒎忾] 7041429

黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

DeepSeek甩出了一張“王炸”