
DeepSeek開(kāi)源周才第二天 有些公司就已經(jīng)坐不住了
哥幾個(gè),走過(guò)路過(guò)別錯(cuò)過(guò),今天的 AI 圈可以說(shuō)是格外熱鬧了。
真正?“Open”?的 DeepSeek ,打出開(kāi)源周的第二發(fā)炮彈,短短幾個(gè)小時(shí)就已經(jīng)在 GitHub 上,收獲了 3k 多星。
?“?開(kāi)源老兵?”?阿里通義千問(wèn)也沒(méi)閑著,推出了 QwQ-Max-Preview 深度思考模型,展示思維鏈,還支持聯(lián)網(wǎng)搜索。
還有凌晨?jī)牲c(diǎn)多,大伙兒可能還在做夢(mèng)的時(shí)候,大洋彼岸的 Anthropic 也給模型升級(jí)換代了。號(hào)稱他們迄今為止最聰明的 Claude 3.7 Sonnet ,還是個(gè)推理模型和傳統(tǒng)模型的?“?混血?”?。
我估計(jì)今天那些專門(mén)做模型測(cè)評(píng)的博主,都快要忙不過(guò)來(lái)了吧。。。
再加上 Grok 3 、 DeepSeek R1 、 o3 mini ,世超猜到了今年推理模型必有一戰(zhàn),但沒(méi)想到,來(lái)得這么快。
光這么說(shuō)大伙兒估計(jì)也沒(méi)感受,今天咱們就挨個(gè)來(lái)看看, AI 圈子到底是怎么個(gè)熱鬧法。
先把視線,放在新一代?“?開(kāi)源戰(zhàn)神?” DeepSeek 身上。
用 R1 教育了一遍市場(chǎng)之后, DeepSeek 這兩天,干脆開(kāi)源了個(gè)徹底, 5 天時(shí)間,每天發(fā)一個(gè)代碼庫(kù)。
第一天,整了個(gè)?FlashMLA?,這玩意兒專門(mén)針對(duì)英偉達(dá)的?Hoppers GPU?(?比如?H100?、?H800?),進(jìn)行了效率優(yōu)化,通俗點(diǎn)說(shuō)就是榨干?GPU?的最后一滴性能。
今天開(kāi)源的,則是 DeepEP 通信庫(kù)。
根據(jù)官方的介紹,這是一個(gè)專門(mén)為專家混合( MoE )和專家并行( EP )設(shè)計(jì)的通信庫(kù)。太復(fù)雜的咱也不去深究,大白話就是通信庫(kù)可以讓?“?專家們?”?的交流更快速、高效。
盲猜一波,國(guó)內(nèi)那些個(gè)手里有 Hoppers GPU ,還是研究 MOE 模型的 AI 公司,可能已經(jīng)沖了。
不知道明天 DeepSeek 又會(huì)開(kāi)源哪個(gè)代碼庫(kù),但光憑他們這敞亮、真誠(chéng)的態(tài)度,圈粉就是分分鐘的事兒,在 DeepSeek 的評(píng)論區(qū)底下,世超已經(jīng)看到不只一位老哥,對(duì)著 OpenAI 貼臉開(kāi)大了。
不過(guò)說(shuō)到這,可能會(huì)有差友疑惑,網(wǎng)上整天嚷嚷著開(kāi)源,這跟咱到底有啥關(guān)系?
這么說(shuō)吧, DeepSeek R1 開(kāi)源以后,大大小小的私企、國(guó)企都吻了上來(lái),還有高校甚至政府機(jī)關(guān),不是已經(jīng)接入 DeepSeek ,就是在接入的路上。
經(jīng)過(guò)大規(guī)模的模型部署后,下一步就是生態(tài)的構(gòu)建、產(chǎn)業(yè)的融合,就像當(dāng)年的?“?互聯(lián)網(wǎng)?+”?, AI 同樣也可以成為基礎(chǔ)設(shè)施,融入到咱們生活的方方面面。
很難說(shuō),閉源模型在構(gòu)建生態(tài)這一步,能不能在短時(shí)間內(nèi)達(dá)到像 DeepSeek 這樣的效果。
所以這一切,我們可能都得感謝開(kāi)源。
再來(lái)看阿里通義千問(wèn)的 QwQ-Max-Preview ,是個(gè)推理模型。阿里也算是國(guó)內(nèi)第一個(gè),推出推理模型的頭部大廠。
根據(jù)官方的說(shuō)法,這是一個(gè)基于 Qwen2.5-Max 的推理模型,有很強(qiáng)的數(shù)學(xué)理解、編碼能力,但目前還只是預(yù)覽版。
世超在第一時(shí)間簡(jiǎn)單試了試, QwQ 也有思維鏈的展示。(不得不說(shuō),QwQ這名字有點(diǎn)可愛(ài)。。)
問(wèn)它一道數(shù)學(xué)競(jìng)賽真題,最后的答案倒是對(duì)了,就是思考時(shí)間稍微久了些,我粗略估計(jì)思考了得有兩分鐘出頭。
這道題問(wèn) DeepSeek R1 ,它的思考過(guò)程跟 QwQ 很相似,也是分析了多種可能性,但 R1 勝在推理的速度稍微快一些( 112 秒?)。
而同樣的題目,我又問(wèn)了今天的另外一位主角 Claude 3.7 Sonnet 。
只能說(shuō),又快又準(zhǔn)。
但值得注意的是, Claude 3.7 Sonnet 是個(gè)混合模型,一個(gè)模型有標(biāo)準(zhǔn)和擴(kuò)展兩種模式。
如果你想看到大模型的推理步驟、思考過(guò)程,那就得選擴(kuò)展模式。
如大伙兒所見(jiàn),體驗(yàn) Claude 3.7 Sonnet 的推理能力,是另外的價(jià)格。
世超還找了幾個(gè)外網(wǎng)的實(shí)測(cè)案例,發(fā)現(xiàn) Claude 的代碼能力依然強(qiáng)得可怕。
同一組提示詞喂給 Claude 3.7 Sonnet 和 Grok 3 ,這是 Claude 3.7 Sonnet 的結(jié)果。
再來(lái)看 Grok 3 的,直接被碾壓。
即使 DeepSeek 加入戰(zhàn)斗,也被秒了。。。
反正看下來(lái), AI 發(fā)展到今天,已經(jīng)有點(diǎn)超乎世超的想象了。
雖說(shuō)今天這三則新聞放一起,打眼一看,好像沒(méi)啥特別大的關(guān)聯(lián)。
但稍微一提煉你就會(huì)發(fā)現(xiàn),它們恰好體現(xiàn)了當(dāng)前人工智能發(fā)展的趨勢(shì):開(kāi)源陣營(yíng)不斷壯大,推理模型成為主流。
模型的開(kāi)源和閉源之爭(zhēng), DeepSeek 一出手,即便是奧特曼,也不得不親口承認(rèn), OpenAI 的閉源策略?“?站在了歷史錯(cuò)誤的一邊?”?。
像 Llama 家族這種具有里程碑意義的模型,對(duì)于開(kāi)源社區(qū)的重要性無(wú)需多言。
而除了 DeepSeek 和 Meta ,阿里通義千問(wèn)、 xAI ,還有陸續(xù)擁抱開(kāi)源的百度、 Minimax 和階躍星辰,開(kāi)源陣營(yíng)肉眼可見(jiàn)在壯大。
另外一邊,前兩年大模型是不是老強(qiáng)調(diào)自己的長(zhǎng)文本能力,慢慢的開(kāi)始卷文生圖、文生視頻還有語(yǔ)音交互這些多模態(tài),再到最近,模型跑分全是數(shù)學(xué)、代碼。
真就應(yīng)了那句話, AI 一天,人間一年。
照這么下去,可能哪天 OpenAI 宣布開(kāi)源,又或者誰(shuí)家突然宣布把 AGI 整出來(lái)了,我都不會(huì)覺(jué)得驚訝了。
責(zé)任編輯:隨心
文章內(nèi)容舉報(bào)
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 傳統(tǒng)產(chǎn)業(yè)“綠”動(dòng)“智”變 7904572
- 2 廣東氣象罕見(jiàn)提醒:做好巨災(zāi)防御準(zhǔn)備 7808371
- 3 “南天門(mén)計(jì)劃”有50萬(wàn)字了 7712926
- 4 殲-20的首次靜態(tài)展示有何重要意義 7619277
- 5 女兒發(fā)現(xiàn)父親500多萬(wàn)遺產(chǎn)用于保健 7523967
- 6 始祖鳥(niǎo)事件后 多戶外品牌集體表態(tài) 7425748
- 7 為阻止印籍員工返美 美國(guó)人組團(tuán)搶票 7334291
- 8 菲軍方宣布“紅色警戒”狀態(tài) 7234323
- 9 員工下班途中騎車(chē)倒地身亡算工傷嗎 7141834
- 10 大爺蹲點(diǎn)進(jìn)周杰倫演唱會(huì)賣(mài)水:5元1瓶 7046023