
DeepSeek發(fā)布最新NSA技術(shù)論文!創(chuàng)始人梁文鋒參與引人注目
聲明:該文章來自(快科技)版權(quán)由原作者所有,K2OS渲染引擎提供網(wǎng)頁加速服務(wù)。
近日,DeepSeek在海外社交平臺(tái)發(fā)布了一篇純技術(shù)論文報(bào)告,其主要內(nèi)容是關(guān)于NSA(即Natively Sparse Attention,原生稀疏注意力)。
與此同時(shí),在論文署名中,第一作者袁景陽是在DeepSeek實(shí)習(xí)期間完成的這項(xiàng)研究。讓人感到驚喜和意外的是,據(jù)論文署名排名,DeepSeek創(chuàng)始人梁文鋒現(xiàn)身論文著作者之中,在作者排名中位列倒數(shù)第二。
根據(jù)論文摘要,DeepSeek團(tuán)隊(duì)認(rèn)為,業(yè)界越來越認(rèn)識(shí)到長上下文建模對于下一代大型語言模型的重要性。然而,隨著序列長度的增加,標(biāo)準(zhǔn)注意力機(jī)制的高復(fù)雜度成為了關(guān)鍵的延遲瓶頸。
據(jù)了解,NSA通過高效的長序列處理能力,使模型能夠直接處理整本書籍、代碼倉庫或多輪對話(如千輪客服場景),擴(kuò)展了大語言模型在文檔分析、代碼生成、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。
同時(shí),NSA通過針對現(xiàn)代硬件的優(yōu)化設(shè)計(jì),在提高推理速度的同時(shí)、降低預(yù)訓(xùn)練成本,而不會(huì)犧牲性能。
它在通用基準(zhǔn)測試、長文本任務(wù)和基于指令的推理中均能達(dá)到或超越全注意力模型的表現(xiàn)。
DeepSeek團(tuán)隊(duì)表示,稀疏注意力為提高效率同時(shí)保持模型能力,提供了一個(gè)有前景的方向。
公開資料顯示,NSA(即Natively Sparse Attention,原生稀疏注意力)是一種用于超快速長文本訓(xùn)練與推理的、硬件對齊且可原生訓(xùn)練的稀疏注意力機(jī)制。
它專為長文本訓(xùn)練與推理設(shè)計(jì),能夠利用動(dòng)態(tài)分層稀疏策略等方法,通過針對現(xiàn)代硬件的優(yōu)化設(shè)計(jì),顯著優(yōu)化傳統(tǒng)AI模型在訓(xùn)練和推理過程中的表現(xiàn)。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
- 1 豐收時(shí)節(jié)感悟總書記的“三農(nóng)”情懷 7904059
- 2 深圳機(jī)場飛機(jī)被“五花大綁”防臺(tái)風(fēng) 7808158
- 3 疑追風(fēng)觀浪 香港一對母子被卷入海 7712647
- 4 盤點(diǎn)新疆的全國之“最” 7616071
- 5 驢肉價(jià)格上漲 中國正面臨缺驢問題 7519937
- 6 用一條毛巾避免大窗玻璃離家出走 7427771
- 7 護(hù)網(wǎng):社交賬號不受控制?木馬在作祟 7332351
- 8 鴻蒙智行秋季新品發(fā)布會(huì) 7235372
- 9 “晚1秒就撞 我肯定不慣著他” 7135906
- 10 中國每年吃掉約70億只白羽肉雞 7048841