黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

<td id="ayewi"><object id="ayewi"></object></td>

<s id="ayewi"><tfoot id="ayewi"></tfoot></s>

選擇你喜歡的標(biāo)簽
我們會為你匹配適合你的網(wǎng)址導(dǎo)航

確認(rèn) 跳過

跳過將刪除所有初始化信息

滾燙Deepseek一夜刀掉英偉達(dá)4萬億除夕又搞了個大的

智能 2025-01-28 14:38

聲明：該文章來自（量子位）版權(quán)由原作者所有，K2OS渲染引擎提供網(wǎng)頁加速服務(wù)。

DeepSeek大爆出圈，現(xiàn)在連夜發(fā)布新模型——

多模態(tài)Janus-Pro-7B，發(fā)布即開源。

在GenEval和DPG-Bench基準(zhǔn)測試中擊敗了DALL-E 3和Stable Diffusion。

想必大家這幾天完全被DeepSeek刷屏了吧。

它長時間霸榜熱搜第一，甚至AI第一股英偉達(dá)直接被干崩了——最大跌幅近17%，一夜蒸發(fā)5890億美元（約合人民幣4.24萬億元），創(chuàng)下美股單日跌幅最大紀(jì)錄。

而Deepseek神話還在繼續(xù)，春節(jié)假期中全國人民都開始體驗(yàn)了，Deepseek服務(wù)器還一度卡到宕機(jī)。

值得一提，同一夜，阿里旗下大模型通義千問Qwen也更新了自己的開源家族：

視覺語言模型Qwen2.5-VL，包括3B、7B 和 72B三種尺寸。

真~今夜杭州都不睡，起舞競速大模型。

DeepSeek連夜發(fā)布新模型

先來看看DeepSeek新模型，這其實(shí)是此前Janus、JanusFlow的高級版本和延續(xù)。

一作為博士畢業(yè)于北大的陳小康。

具體來說，它基于DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base構(gòu)建的，是一個統(tǒng)一理解和生成的多模態(tài)大模型。整個模型采用自回歸框架。

它通過將視覺編碼解耦為單獨(dú)的路徑來解決以前方法的局限性，同時仍然使用單一、統(tǒng)一的轉(zhuǎn)換器架構(gòu)進(jìn)行處理。

這種解耦不僅緩解了視覺編碼器在理解和生成中的角色沖突，還增強(qiáng)了框架的靈活性。

對于多模態(tài)理解，它使用SigLIP-L作為視覺編碼器，支持 384 x 384 圖像輸入。對于圖像生成，Janus-Pro使用LIamaGen中的VQ標(biāo)記器，將圖像轉(zhuǎn)換為離散的ID，下采樣率為16。

ID序列被扁平化為一維后，他們使用生成適配器將每個ID對應(yīng)的代碼庫嵌入映射到 LLM 的輸入空間中。然后，將這些特征序列連接起來，形成一個多模態(tài)特征序列，隨后將其輸入 LLM 進(jìn)行處理。

除了 LLM 內(nèi)置的預(yù)測頭，還在視覺生成任務(wù)中使用隨機(jī)初始化的預(yù)測頭進(jìn)行圖像預(yù)測。

相較于前一個版本Janus的三個訓(xùn)練階段，團(tuán)隊(duì)發(fā)現(xiàn)這一訓(xùn)練策略并不理想，會大大降低計算效率。

對此，他們做了兩處大的修改。

第一階段Stage I的長時間訓(xùn)練：增加了第一階段的訓(xùn)練步驟，以便在 ImageNet 數(shù)據(jù)集上進(jìn)行充分的訓(xùn)練。研究結(jié)果表明，即使在 LLM 參數(shù)固定的情況下，模型也能有效地模擬像素依賴性，并根據(jù)類別名稱生成合理的圖像。

第二階段Stage II:的集中訓(xùn)練：在第二階段，放棄了 ImageNet 數(shù)據(jù)，直接利用常規(guī)文本到圖像數(shù)據(jù)來訓(xùn)練模型，以生成基于密集描述的圖像。

此外在第三階段的監(jiān)督微調(diào)過程中，還調(diào)整了不同類型數(shù)據(jù)集的數(shù)據(jù)比例，將多模態(tài)數(shù)據(jù)、純文本數(shù)據(jù)和文本圖像數(shù)據(jù)的比例從 7:3:10 調(diào)整為 5:1:4。

通過略微降低文本到圖像數(shù)據(jù)的比例發(fā)現(xiàn)，這一調(diào)整可以讓在保持強(qiáng)大的視覺生成能力的同時，提高多模態(tài)理解性能。

最終結(jié)果顯示，實(shí)現(xiàn)了與現(xiàn)有視覺理解生成SOTA模型持平的水準(zhǔn)。

更多多模態(tài)理解和視覺生成能力的定性結(jié)果。

DeepSeek征服全球用戶

想必這兩天一定是被DeepSeek刷屏了——

是科技圈非科技圈、七大姑八大姨都擱那討論的程度。

像同為杭州六小龍的游戲科學(xué)，其創(chuàng)始人CEO、《黑神話：悟空》制作人也專門發(fā)微博支持：頂級科技成果，六大突破。

還有DeepSeek自稱MOSS，也被流浪地球?qū)а莨⒁獾搅恕?/p>

好好好，DeepSeek是不是直接預(yù)訂下一部主角了（Doge）。

而這故事的一開始，正是前幾天剛剛開源的推理模型R1，以其低廉的成本、免費(fèi)的使用以及完全不輸o1的性能，征服了全球用戶，直接引發(fā)行業(yè)地震。

僅僅花費(fèi)560萬美元訓(xùn)練的R1，相當(dāng)于Meta GenAI團(tuán)隊(duì)任一高管的薪資，在很多AI基準(zhǔn)測試中已經(jīng)達(dá)到甚至超越OpenAI o1模型。

而且DeepSeek是真的免費(fèi)，而ChatGPT雖然在免費(fèi)榜上，但要是想解鎖它的完全體，還是要掏上200美元。

于是乎，大家開始紛紛轉(zhuǎn)向DeepSeek來“構(gòu)建一切”，也就迅速登頂美區(qū)蘋果應(yīng)用商店免費(fèi)App排行第一，超越了ChatGPT和Meta的Threads等熱門應(yīng)用。

用戶量的激增也導(dǎo)致DeepSeek服務(wù)器多次宕機(jī)，官方不得不緊急維護(hù)。

而聚焦于行業(yè)內(nèi)，大家對于DeepSeek的關(guān)注，在于如何在有限的資源成本情況下，實(shí)現(xiàn)與OpenAI持平的水準(zhǔn)。

相比于國外動輒百億千億美元成本、幾十上百萬張卡這種粗放的模式，用DeepSeek很多技術(shù)細(xì)節(jié)都放在如何降低成本開銷上。

比如蒸餾。R1總共開源了6個在R1數(shù)據(jù)上的蒸餾小模型，蒸餾版Qwen-1.5B都能在部分任務(wù)上超過GPT-4o。

還有就是純強(qiáng)化學(xué)習(xí)，拋棄SFT環(huán)節(jié)，通過數(shù)千次的強(qiáng)化學(xué)習(xí)來提升模型的推理能力，然后在AIME 2024上的得分與OpenAI-o1-0912的表現(xiàn)相當(dāng)。

也正因?yàn)檫@樣，讓人不免想到OpenAI前幾天砸5000億美元建數(shù)據(jù)中心以及英偉達(dá)長時間以來在高端GPU的壟斷地位。

拿5000億美元建數(shù)據(jù)中心，是有必要的嗎？

大規(guī)模的AI算力投資，是有必要的嗎？

這樣的討論，在資本市場得到了響應(yīng)。美股開盤后，英偉達(dá)股價暴跌17%，創(chuàng)下自2020年3月以來最大跌幅，市值蒸發(fā)近6000億美元，老黃自己的個人財富一夜之間也縮水了超130億美元。

博通、AMD等芯片巨頭也紛紛大幅下跌。

對此，英偉達(dá)公開回應(yīng)稱，DeepSeek是一項(xiàng)卓越的人工智能進(jìn)展，也是測試時擴(kuò)展的絕佳范例。DeepSeek的研究展示了如何運(yùn)用該技術(shù)，借助廣泛可用的模型以及完全符合出口管制規(guī)定的算力，創(chuàng)建新模型。推理過程需要大量英偉達(dá) GPU和高性能網(wǎng)絡(luò)。如今我們有三條擴(kuò)展定律：持續(xù)適用的預(yù)訓(xùn)練和后訓(xùn)練定律，以及新的測試時擴(kuò)展定律。

同樣被動搖的還有Meta、OpenAI。

Meta內(nèi)部甚至成立了專門的研究小組，試圖剖析DeepSeek的技術(shù)細(xì)節(jié)，以改進(jìn)其Llama系列模型，并且新年計劃中預(yù)算4000億起步搞AI，年底AI算力將達(dá)130萬卡。

奧特曼也緊急透露新模型o3-mini即將免費(fèi)上線ChatGPT的消息，試圖挽回一點(diǎn)市場熱度。

現(xiàn)在有了新模型發(fā)布，關(guān)于DeepSeek的討論還在繼續(xù)。

DeepSeek新版本疑似很快發(fā)布，時間是2025年2月25日。

杭州昨夜不眠

同一個夜晚，同一個杭州。

就在DeepSeek新模型發(fā)布不久，Qwen也更新了自己的開源家族：

Qwen2.5-VL。

這個標(biāo)題怎么有三體那味了。

它有3B、7B 和 72B三種尺寸，可以支持視覺理解事物、Agent、理解長視頻并且捕捉事件，結(jié)構(gòu)化輸出等等。

（詳情內(nèi)容可以參考下一篇推文）

ps，最后，繼杭州六小龍之后，廣東AI三杰也出現(xiàn)了。

（杭州六小龍分別是游戲科學(xué)、DeepSeek、宇樹科技、云深處科技、強(qiáng)腦科技和群核科技）

他們分別是湛江人梁文鋒（DeepSeek創(chuàng)始人），汕頭人楊植麟（月之暗面、Kimi創(chuàng)始人）以及AI學(xué)術(shù)大佬廣州人何愷明。

關(guān)注我們

[超站]友情鏈接：

四季很好，只要有你，文娛排行榜：https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全，洞悉企業(yè)級服務(wù)市場：https://www.ijiandao.com/

*文章為作者獨(dú)立觀點(diǎn)，不代表 0XUCN 立場

本文由愛玩熊熊發(fā)表，轉(zhuǎn)載此文章須經(jīng)作者同意，并請附上出處(0XUCN)及本頁鏈接。

原文鏈接 http://jjbxz.cn/article/intelnet/intelligent/54904.html

量子位 DeepSeek Janus-Pro-7B 梁文鋒 GenEval DPG-Bench DALL-E 3 Stable Diffusion Janus JanusFlow 游戲科學(xué) 宇樹科技云深處科技強(qiáng)腦科技群核科技楊植麟何愷明

圖庫

百度熱搜榜

排名熱點(diǎn) 搜索指數(shù)

bgame.cn

分享文章

微信
微信掃碼分享

新浪微博
離開
復(fù)制鏈接
返回頂部

<bdo id="6yomy"></bdo>

<noframes id="6yomy"><pre id="6yomy"></pre></noframes><fieldset id="6yomy"><del id="6yomy"></del></fieldset>
<noframes id="6yomy"><tfoot id="6yomy"></tfoot></noframes>

<noframes id="6yomy"><pre id="6yomy"></pre></noframes><bdo id="6yomy"></bdo>