
DeepSeek開(kāi)源具有671B個(gè)參數(shù)的新型 AI 模型
人工智能開(kāi)發(fā)商DeepSeek今天開(kāi)源了具有6710億個(gè)參數(shù)的全新大型語(yǔ)言模型DeepSeek-V3。
LLM 可以生成文本、編寫軟件代碼并執(zhí)行相關(guān)任務(wù)。DeepSeek 表示,它在六項(xiàng)基準(zhǔn)測(cè)試中的表現(xiàn)優(yōu)于市場(chǎng)上最先進(jìn)的兩款開(kāi)源 LLM。
DeepSeek-V3 基于所謂的混合專家 (MoE) 架構(gòu)。它由多個(gè)神經(jīng)網(wǎng)絡(luò)組成,每個(gè)神經(jīng)網(wǎng)絡(luò)都針對(duì)不同的任務(wù)集進(jìn)行了優(yōu)化。當(dāng) DeepSeek-V3 收到提示時(shí),一個(gè)稱為路由器的組件會(huì)將請(qǐng)求發(fā)送到最適合回答該請(qǐng)求的神經(jīng)網(wǎng)絡(luò)。
MoE 架構(gòu)的主要優(yōu)勢(shì)在于它降低了硬件成本。向 DeepSeek-V3 發(fā)送提示不會(huì)激活整個(gè) LLM,而只會(huì)激活請(qǐng)求路由到的特定神經(jīng)網(wǎng)絡(luò)。每個(gè)這樣的神經(jīng)網(wǎng)絡(luò)都有 340 億個(gè)參數(shù),這意味著它只需要相對(duì)有限的基礎(chǔ)設(shè)施即可運(yùn)行。
除了其優(yōu)點(diǎn)之外,MoE 架構(gòu)也帶來(lái)了一些挑戰(zhàn)。在訓(xùn)練過(guò)程中,MoE 模型的某些神經(jīng)網(wǎng)絡(luò)會(huì)比其他神經(jīng)網(wǎng)絡(luò)接收更多的訓(xùn)練數(shù)據(jù),這可能會(huì)導(dǎo)致 LLM 的輸出質(zhì)量不一致。DeepSeek 表示,它已經(jīng)開(kāi)發(fā)出一種緩解這一挑戰(zhàn)的新方法,并將其應(yīng)用于 DeepSeek-V3。
LLM 的訓(xùn)練使用了 14.8 萬(wàn)億個(gè) token 的信息。一個(gè) token 對(duì)應(yīng)幾個(gè)字母或數(shù)字。訓(xùn)練過(guò)程耗時(shí) 278.8 萬(wàn)個(gè)圖形處理單元小時(shí),這意味著它使用的基礎(chǔ)設(shè)施相對(duì)較少。業(yè)界最先進(jìn)的 AI 集群擁有數(shù)萬(wàn)個(gè)或更多的 GPU,可以在幾天內(nèi)完成這樣的訓(xùn)練項(xiàng)目。
除了 MoE 架構(gòu)外,DeepSeek-V3 還配備了多種優(yōu)化功能,旨在提高其輸出質(zhì)量。?
LLM 使用一種稱為注意力的技術(shù)來(lái)識(shí)別句子中最重要的細(xì)節(jié)。DeepSeek-3 實(shí)現(xiàn)了多頭潛在注意力,這是該技術(shù)的改進(jìn)版本,允許它從文本片段中提取多次關(guān)鍵細(xì)節(jié),而不是僅提取一次。這使得 LLM 不太可能忽略重要信息。?
DeepSeek-V 還具有所謂的多標(biāo)記預(yù)測(cè)功能。語(yǔ)言模型通常一次生成一個(gè)標(biāo)記。相比之下,DeepSeek-V3 一次生成多個(gè)標(biāo)記,從而加快了推理速度。
DeepSeek 通過(guò)將其算法與其他三款開(kāi)源 LLM(上一代 DeepSeek-V2、Llama 3.1 405B 和 Qwen2.5 72B)進(jìn)行比較來(lái)測(cè)試其算法。DeepSeek-V3 在評(píng)估中使用的所有九項(xiàng)編碼和數(shù)學(xué)基準(zhǔn)測(cè)試中都取得了更高的分?jǐn)?shù)。它在一系列文本處理任務(wù)中也表現(xiàn)得更好。?
DeepSeek-V3 的代碼可以在Hugging Face上找到。?
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7903936
- 2 央視起底柯克之死 7809106
- 3 中產(chǎn)運(yùn)動(dòng)三件套又換了 7713793
- 4 長(zhǎng)春航空展這些“首次”不要錯(cuò)過(guò) 7618114
- 5 持槍空降兵在孩子前一動(dòng)不敢動(dòng) 7523684
- 6 浙江大學(xué)教授被留置 持股市值31億 7423630
- 7 內(nèi)蒙古一地集中采集男性居民血樣 7330113
- 8 租客長(zhǎng)租15年不到1年就被勸退 7235340
- 9 安踏市值蒸發(fā)125億港元 7140820
- 10 特朗普兒子模仿爸爸引哄堂大笑 7045715