DeepSeek開源具有671B個參數的新型 AI 模型

智能 2024-12-29 06:15

聲明：該文章來自（SiliconANGLE）版權由原作者所有，K2OS渲染引擎提供網頁加速服務。

人工智能開發(fā)商DeepSeek今天開源了具有6710億個參數的全新大型語言模型DeepSeek-V3。

LLM 可以生成文本、編寫軟件代碼并執(zhí)行相關任務。DeepSeek 表示，它在六項基準測試中的表現(xiàn)優(yōu)于市場上最先進的兩款開源 LLM。

DeepSeek-V3 基于所謂的混合專家 (MoE) 架構。它由多個神經網絡組成，每個神經網絡都針對不同的任務集進行了優(yōu)化。當 DeepSeek-V3 收到提示時，一個稱為路由器的組件會將請求發(fā)送到最適合回答該請求的神經網絡。

MoE 架構的主要優(yōu)勢在于它降低了硬件成本。向 DeepSeek-V3 發(fā)送提示不會激活整個 LLM，而只會激活請求路由到的特定神經網絡。每個這樣的神經網絡都有 340 億個參數，這意味著它只需要相對有限的基礎設施即可運行。

除了其優(yōu)點之外，MoE 架構也帶來了一些挑戰(zhàn)。在訓練過程中，MoE 模型的某些神經網絡會比其他神經網絡接收更多的訓練數據，這可能會導致 LLM 的輸出質量不一致。DeepSeek 表示，它已經開發(fā)出一種緩解這一挑戰(zhàn)的新方法，并將其應用于 DeepSeek-V3。

LLM 的訓練使用了 14.8 萬億個 token 的信息。一個 token 對應幾個字母或數字。訓練過程耗時 278.8 萬個圖形處理單元小時，這意味著它使用的基礎設施相對較少。業(yè)界最先進的 AI 集群擁有數萬個或更多的 GPU，可以在幾天內完成這樣的訓練項目。

除了 MoE 架構外，DeepSeek-V3 還配備了多種優(yōu)化功能，旨在提高其輸出質量。?

LLM 使用一種稱為注意力的技術來識別句子中最重要的細節(jié)。DeepSeek-3 實現(xiàn)了多頭潛在注意力，這是該技術的改進版本，允許它從文本片段中提取多次關鍵細節(jié)，而不是僅提取一次。這使得 LLM 不太可能忽略重要信息。?

DeepSeek-V 還具有所謂的多標記預測功能。語言模型通常一次生成一個標記。相比之下，DeepSeek-V3 一次生成多個標記，從而加快了推理速度。

DeepSeek 通過將其算法與其他三款開源 LLM（上一代 DeepSeek-V2、Llama 3.1 405B 和 Qwen2.5 72B）進行比較來測試其算法。DeepSeek-V3 在評估中使用的所有九項編碼和數學基準測試中都取得了更高的分數。它在一系列文本處理任務中也表現(xiàn)得更好。?

DeepSeek-V3 的代碼可以在Hugging Face上找到。?

關注我們