
DeepSeek第二炸!開源首個(gè)用于MoE模型訓(xùn)練通信庫(kù)
聲明:該文章來自(游民星空)版權(quán)由原作者所有,K2OS渲染引擎提供網(wǎng)頁加速服務(wù)。
DeepSeek 的“開源周”活動(dòng)今日已經(jīng)來到第二天,今天發(fā)布的是首個(gè)開源的用于 MoE 模型訓(xùn)練和推理的 EP 通信庫(kù) ——DeepEP。
官方表示其具備如下特征:
高效優(yōu)化的全到全通信方式
支持節(jié)點(diǎn)內(nèi)外通信,兼容 NVLink 和 RDMA 技術(shù)
提供高吞吐量的內(nèi)核,提升訓(xùn)練和推理前期填充效率
提供低延遲內(nèi)核,優(yōu)化推理解碼速度
完全支持 FP8 數(shù)據(jù)格式調(diào)度
提供靈活的 GPU 資源管理,支持計(jì)算與通信的重疊執(zhí)行
據(jù)介紹,DeepEP 是一款專為混合專家(MoE)和專家并行(EP)設(shè)計(jì)的通信庫(kù),提供了高吞吐量和低延遲的 all-to-all GPU 內(nèi)核,常用于 MoE 派發(fā)和合并操作。該庫(kù)還支持低精度計(jì)算,包括 FP8。
為了與 DeepSeek-V3 論文中提出的組限制門控算法兼容,DeepEP 提供了一些針對(duì)不對(duì)稱帶寬轉(zhuǎn)發(fā)優(yōu)化的內(nèi)核,比如將數(shù)據(jù)從 NVLink 域轉(zhuǎn)發(fā)到 RDMA 域。這些優(yōu)化的內(nèi)核能夠提供高吞吐量,適合用于訓(xùn)練和推理的預(yù)填充任務(wù),同時(shí)支持 SM(流式多處理器)數(shù)量控制。
對(duì)于延遲敏感型的推理解碼任務(wù),DeepEP 提供了一套低延遲內(nèi)核,采用純 RDMA 技術(shù)以最大程度減少延遲。此外,該庫(kù)還采用了一種基于 Hook 的通信與計(jì)算重疊方法,不會(huì)占用任何 SM 資源。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/
- 1 像石榴籽一樣緊緊抱在一起 7904220
- 2 殲-35完成在福建艦上彈射起飛 7809212
- 3 深圳:建議準(zhǔn)備至少3天的應(yīng)急物資 7712296
- 4 唱著民歌迎豐收 7615803
- 5 日本“蘋果病”流行達(dá)歷史頂點(diǎn) 7523712
- 6 孩子的數(shù)學(xué)邏輯比運(yùn)算結(jié)果重要 7424272
- 7 榴蓮降至15元一斤 7332501
- 8 背簍老人等公交被拒載 司機(jī)被開除 7231804
- 9 六旬男子連挖10座墓偷11個(gè)骨灰盒 7137567
- 10 成都體育生跳越10把椅子一次成功 7044064