
小紅書開源最新多模態(tài)大模型dots.vlm1:性能躍升頂尖梯隊
據(jù)媒體媒體報道,小紅書人文智能實驗室(Humane Intelligence Lab,簡稱 HI Lab)憑借其獨特的多模態(tài)技術嶄露頭角。
近日,該實驗室宣布開源其最新的視覺語言模型dots.vlm1,此舉不僅彰顯了其技術自研的堅定決心,也為多模態(tài)AI領域注入了新活力。
作為HI Lab首個開源的多模態(tài)大模型,dots.vlm1基于全自研的12億參數(shù)NaViT視覺編碼器和 DeepSeek V3 大語言模型構建而成。它在視覺理解與推理任務上展現(xiàn)出接近業(yè)界領先水平的能力,同時在純文本任務中也保持了相當?shù)母偁幜?。dots.vlm1的出現(xiàn),突破了當前AI模型多聚焦于文本處理的局限,為多模態(tài)AI的發(fā)展開辟了新路徑。
在實際測試中,dots.vlm1的表現(xiàn)令人印象深刻。該模型能夠精準識別空間關系、解析復雜圖表、解答數(shù)獨問題,甚至能理解和完成高考數(shù)學題。其圖像識別能力同樣強大,無論是常見物體還是冷門圖片,都能準確識別并給出詳盡解釋。例如,在面對經(jīng)典的紅綠色盲數(shù)字測試圖時,dots.vlm1一次性全部答對,在顏色和形狀識別上都表現(xiàn)出極高的準確性。
除了卓越的視覺與推理能力,dots.vlm1在文本生成方面也表現(xiàn)突出。它能夠模仿李白詩風,創(chuàng)作出描述劉慈欣《詩云》中“詩云”意象的詩歌,作品意境深遠、用詞精準,充分展現(xiàn)了其文本創(chuàng)作實力。
dots.vlm1的成功,源于HI Lab對技術自研的持續(xù)投入。該實驗室由小紅書內部大模型技術與應用產(chǎn)品團隊合并升級而來,專注于探索多元智能形態(tài)。通過融合人際智能、空間智能、音樂智能及人文關懷等維度,HI Lab不斷拓展人機交互的邊界,為AI技術發(fā)展注入新動能。
在dots.vlm1的開發(fā)中,HI Lab采用了嚴謹?shù)娜A段訓練流程:首先對NaViT視覺編碼器進行預訓練,最大化其對多樣視覺數(shù)據(jù)的感知能力;隨后將視覺編碼器與DeepSeek V3大語言模型聯(lián)合訓練,利用大規(guī)模、多樣化多模態(tài)數(shù)據(jù)集;最后通過有監(jiān)督微調進一步提升模型的泛化能力。這一流程確保了dots.vlm1在視覺與文本領域均能出色發(fā)揮。
值得關注的是,dots.vlm1的開源不僅為AI研究者提供了寶貴資源,更積極推動了多模態(tài)AI技術的進步。在當前競爭激烈的AI領域,小紅書HI Lab此舉為行業(yè)樹立了新標桿。隨著dots.vlm1的持續(xù)完善和應用場景的不斷拓展,其有望在更多領域釋放巨大潛力。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關注數(shù)據(jù)與安全,洞悉企業(yè)級服務市場:https://www.ijiandao.com/

隨時掌握互聯(lián)網(wǎng)精彩
- 1 中美完全可以相互成就、共同繁榮 7904577
- 2 加沙已變“死城” 7809655
- 3 暴雨中臺下只剩1名觀眾 演員仍開演 7713882
- 4 近距離感受“大國重器” 7616066
- 5 美國大豆中國訂單量仍為零 7522179
- 6 試管嬰兒患腎病 父母要求醫(yī)院擔全責 7429028
- 7 女子婚后起訴父母返還18萬彩禮 7328951
- 8 委內瑞拉:美國“不宣而戰(zhàn)” 7237434
- 9 金價飆升 有非法淘金人井下生活兩年 7135812
- 10 穿始祖鳥是為親近自然而非看它炸山 7043525