黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標簽
我們會為你匹配適合你的網(wǎng)址導(dǎo)航

    確認 跳過

    跳過將刪除所有初始化信息

    您的位置:0XUCN > 資訊 > 智能
    新聞分類

    DeepSeek第二炸!開源首個用于MoE模型訓(xùn)練通信庫

    智能 PRO 稿源:游民星空 2025-02-26 08:21

    DeepSeek 的“開源周”活動今日已經(jīng)來到第二天,今天發(fā)布的是首個開源的用于 MoE 模型訓(xùn)練和推理的 EP 通信庫 ——DeepEP。

    官方表示其具備如下特征:

    高效優(yōu)化的全到全通信方式

    支持節(jié)點內(nèi)外通信,兼容 NVLink 和 RDMA 技術(shù)

    提供高吞吐量的內(nèi)核,提升訓(xùn)練和推理前期填充效率

    提供低延遲內(nèi)核,優(yōu)化推理解碼速度

    完全支持 FP8 數(shù)據(jù)格式調(diào)度

    提供靈活的 GPU 資源管理,支持計算與通信的重疊執(zhí)行

    據(jù)介紹,DeepEP 是一款專為混合專家(MoE)和專家并行(EP)設(shè)計的通信庫,提供了高吞吐量和低延遲的 all-to-all GPU 內(nèi)核,常用于 MoE 派發(fā)和合并操作。該庫還支持低精度計算,包括 FP8。

    為了與 DeepSeek-V3 論文中提出的組限制門控算法兼容,DeepEP 提供了一些針對不對稱帶寬轉(zhuǎn)發(fā)優(yōu)化的內(nèi)核,比如將數(shù)據(jù)從 NVLink 域轉(zhuǎn)發(fā)到 RDMA 域。這些優(yōu)化的內(nèi)核能夠提供高吞吐量,適合用于訓(xùn)練和推理的預(yù)填充任務(wù),同時支持 SM(流式多處理器)數(shù)量控制。

    對于延遲敏感型的推理解碼任務(wù),DeepEP 提供了一套低延遲內(nèi)核,采用純 RDMA 技術(shù)以最大程度減少延遲。此外,該庫還采用了一種基于 Hook 的通信與計算重疊方法,不會占用任何 SM 資源。

    0XU.CN

    [超站]友情鏈接:

    四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
    關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

    圖庫
    公眾號 關(guān)注網(wǎng)絡(luò)尖刀微信公眾號
    隨時掌握互聯(lián)網(wǎng)精彩
    贊助鏈接