
DeepSeek推出NSA 馬斯克今日宣布Grok-3發(fā)布
今天,馬斯克發(fā)布Grok-3,隨后,DeepSeek就推出NSA。
DeepSeek推出NSA
2月18日,DeepSeek在社交平臺X上發(fā)布了一篇關(guān)于NSA的純技術(shù)論文報告。
DeepSeek稱,NSA是一種與硬件高度適配并可原生訓(xùn)練的稀疏注意力機制,實現(xiàn)超高速長上下文訓(xùn)練與推理!
NSA的核心組件包括:動態(tài)分層稀疏策略、粗粒度的Token壓縮、細(xì)粒度的Token選擇。
DeepSeek稱,通過針對現(xiàn)代硬件的優(yōu)化設(shè)計,NSA在提升推理速度的同時降低預(yù)訓(xùn)練成本且不犧牲性能。在通用基準(zhǔn)測試、長上下文任務(wù)以及基于指令的推理中,NSA的表現(xiàn)可媲美甚至超越全注意力模型。
馬斯克今日宣布Grok-3發(fā)布
埃隆·馬斯克旗下的人工智能公司xAI于2月18日正式發(fā)布了最新的大模型Grok-3。
馬斯克稱其為“地球上最聰明的人工智能”,Grok-3在多項技術(shù)和性能上實現(xiàn)了重大突破。
馬斯克在直播中稱,在數(shù)學(xué)、科學(xué)和編程等基準(zhǔn)測試中,Grok-3超越了Alphabet旗下Google Gemini、DeepSeek的V3模型、Anthropic的Claude和OpenAI的GPT-4o,Grok-3的計算能力比前代版本提升了10倍以上,并已于今年1月初完成預(yù)訓(xùn)練。
根據(jù)馬斯克的介紹,Grok-3采用了“思維鏈”(Chain of Thought)技術(shù),能夠模擬人類逐步推理的過程,顯著提升了模型在處理復(fù)雜任務(wù)時的邏輯連貫性和推理能力。
在現(xiàn)場演示中,Grok-3被要求解決一個復(fù)雜的物理問題,即計算從地球到火星的轉(zhuǎn)移軌跡,并繪制3D動畫。xAI提到,這一任務(wù)完全沒有預(yù)設(shè)腳本,Grok-3僅通過簡短的指令“生成地球發(fā)射、火星著陸以及下一次發(fā)射窗口返回地球的動畫3D圖”進(jìn)行操作。Grok-3能夠理解復(fù)雜的物理計算并生成可視化圖形,證明其在科學(xué)計算方面的能力。
在訓(xùn)練Grok-3的過程中,xAI搭建了由20萬張英偉達(dá)H100 GPU組成的超大規(guī)模計算集群。這一龐大算力使得Grok-3的訓(xùn)練效率和模型性能大幅提升。
另外,xAI推出了名為DeepSearch的智能搜索引擎,集成于Grok-3中。 該引擎能夠掃描互聯(lián)網(wǎng)和X平臺上的信息,并以摘要形式回應(yīng)用戶查詢,提供更高效、精準(zhǔn)的信息檢索服務(wù)。
xAI稱,Grok-3具備自我糾正機制,能夠通過反復(fù)檢查數(shù)據(jù),實現(xiàn)邏輯一致性,從而減少錯誤并提高準(zhǔn)確性。
此外,xAI引入了人類反饋循環(huán)和情境訓(xùn)練,以確保Grok-3的響應(yīng)更加自然和準(zhǔn)確。人類反饋循環(huán)通過人類審閱者的直接反饋,幫助模型改進(jìn)答案的準(zhǔn)確性、相關(guān)性和實用性。而情境訓(xùn)練則教導(dǎo)AI根據(jù)對話上下文調(diào)整回應(yīng),考慮之前的互動、用戶意圖和相關(guān)信息,生成更符合情境的答案。
中國基金報記者 泰勒
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

隨時掌握互聯(lián)網(wǎng)精彩
- 1 中美完全可以相互成就、共同繁榮 7904027
- 2 加沙已變“死城” 7809732
- 3 暴雨中臺下只剩1名觀眾 演員仍開演 7712070
- 4 近距離感受“大國重器” 7617913
- 5 美國大豆中國訂單量仍為零 7522786
- 6 試管嬰兒患腎病 父母要求醫(yī)院擔(dān)全責(zé) 7425449
- 7 網(wǎng)紅“戶晨風(fēng)”多平臺賬號被封 7331709
- 8 臺海軍前艦長呂禮詩參加長春航展 7236668
- 9 澳大利亞緊急呼叫服務(wù)中斷致4死 7140427
- 10 印空軍參謀長:我們給世界上了一課 7039920