
GLM-4.5V – 智譜開(kāi)源的最新一代視覺(jué)推理模型
GLM-4.5V是智譜推出的最新一代視覺(jué)推理模型。模型基于106B參數(shù)規(guī)模構(gòu)建,擁有12B激活能力,是目前領(lǐng)先的視覺(jué)語(yǔ)言模型(VLM)。模型在GLM-4.1V-Thinking的基礎(chǔ)上升級(jí)而來(lái),繼承其優(yōu)秀架構(gòu),結(jié)合新一代文本基座模型GLM-4.5-Air進(jìn)行訓(xùn)練。模型在視覺(jué)理解、推理能力上表現(xiàn)卓越,適用網(wǎng)頁(yè)前端復(fù)刻、grounding、圖尋游戲、視頻理解等場(chǎng)景,有望推動(dòng)多模態(tài)應(yīng)用的進(jìn)一步發(fā)展。為幫助開(kāi)發(fā)者直觀體驗(yàn) GLM-4.5V 的強(qiáng)大能力并打造專(zhuān)屬多模態(tài)應(yīng)用,團(tuán)隊(duì)開(kāi)源了一款桌面助手應(yīng)用,能實(shí)時(shí)截屏、錄屏,借助 GLM-4.5V 模型處理代碼輔助、視頻分析、游戲解答、文檔解讀等多種視覺(jué)任務(wù)。
GLM-4.5V的主要功能
視覺(jué)理解與推理:能理解和分析圖像、視頻等視覺(jué)內(nèi)容,進(jìn)行復(fù)雜的視覺(jué)推理任務(wù),例如識(shí)別物體、場(chǎng)景、人物關(guān)系等。
多模態(tài)交互:支持文本與視覺(jué)內(nèi)容的融合處理,例如根據(jù)文本描述生成圖像,或者根據(jù)圖像生成文本描述。
網(wǎng)頁(yè)前端復(fù)刻:根據(jù)網(wǎng)頁(yè)設(shè)計(jì)圖生成前端代碼,實(shí)現(xiàn)快速的網(wǎng)頁(yè)開(kāi)發(fā)。
圖尋游戲:支持基于圖像的搜索和匹配任務(wù),例如在復(fù)雜場(chǎng)景中找到特定目標(biāo)。
視頻理解:支持分析視頻內(nèi)容,提取關(guān)鍵信息,進(jìn)行視頻摘要、事件檢測(cè)等任務(wù)。
跨模態(tài)生成:支持從視覺(jué)內(nèi)容生成文本,或者從文本生成視覺(jué)內(nèi)容,實(shí)現(xiàn)多模態(tài)內(nèi)容的無(wú)縫轉(zhuǎn)換。
GLM-4.5V的技術(shù)原理
大規(guī)模預(yù)訓(xùn)練:模型基于106B參數(shù)的預(yù)訓(xùn)練架構(gòu),用海量的文本和視覺(jué)數(shù)據(jù)進(jìn)行訓(xùn)練,學(xué)習(xí)語(yǔ)言和視覺(jué)的聯(lián)合表示。
視覺(jué)語(yǔ)言融合:采用Transformer架構(gòu),將文本和視覺(jué)特征進(jìn)行融合,基于交叉注意力機(jī)制實(shí)現(xiàn)文本與視覺(jué)信息的交互。
激活機(jī)制:模型設(shè)計(jì)12B激活參數(shù),用在推理過(guò)程中動(dòng)態(tài)激活相關(guān)的參數(shù)子集,提高計(jì)算效率和推理性能。
結(jié)構(gòu)繼承與優(yōu)化:繼承GLM-4.1V-Thinking的優(yōu)秀結(jié)構(gòu),結(jié)合新一代文本基座模型GLM-4.5-Air進(jìn)行訓(xùn)練,進(jìn)一步提升性能。
多模態(tài)任務(wù)適配:基于微調(diào)和優(yōu)化,模型能適應(yīng)多種多模態(tài)任務(wù),例如視覺(jué)問(wèn)答、圖像描述生成、視頻理解等。
GLM-4.5V的性能表現(xiàn)
General VQA:GLM-4.5V在通用視覺(jué)問(wèn)答任務(wù)中表現(xiàn)最佳,尤其在MMBench v1.1基準(zhǔn)測(cè)試中得分高達(dá)88.2。
STEM:GLM-4.5V在科學(xué)、技術(shù)、工程和數(shù)學(xué)相關(guān)任務(wù)中同樣領(lǐng)先,例如在MathVista測(cè)試中獲得84.6的高分。
Long Document OCR & Chart:在處理長(zhǎng)文檔和圖表的OCRBench測(cè)試中,GLM-4.5V以86.5分展現(xiàn)卓越的性能。
Visual Grounding:GLM-4.5V在視覺(jué)定位任務(wù)上表現(xiàn)突出,RefCOCO+loc (val)測(cè)試得分為91.3。
Spatial Reasoning:在空間推理能力方面,GLM-4.5V在CV-Bench測(cè)試中取得87.3分的優(yōu)異成績(jī)。
Coding:在編程任務(wù)中,GLM-4.5V在Design2Code基準(zhǔn)測(cè)試中得分82.2,顯示其在代碼生成和理解方面的能力。
Video Understanding:GLM-4.5V在視頻理解方面同樣表現(xiàn)出色,在VideoMME (w/o sub)測(cè)試中得分74.6。
GLM-4.5V的項(xiàng)目地址
GitHub倉(cāng)庫(kù):https://github.com/zai-org/GLM-V/
HuggingFace模型庫(kù):https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
技術(shù)論文:https://github.com/zai-org/GLM-V/tree/main/resources/GLM-4.5V_technical_report.pdf
桌面助手應(yīng)用:https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App
如何使用GLM-4.5V
注冊(cè)與登錄:訪問(wèn)?Z.ai?官網(wǎng),用郵箱注冊(cè)賬號(hào)。完成注冊(cè)后,登錄賬號(hào)。
選擇模型:在登錄后,在模型選擇下拉框中選擇GLM-4.5V。
體驗(yàn)功能:
網(wǎng)頁(yè)前端復(fù)刻:上傳網(wǎng)頁(yè)設(shè)計(jì)圖,模型將自動(dòng)生成前端代碼。
視覺(jué)推理:上傳圖像或視頻,模型將進(jìn)行視覺(jué)理解、物體識(shí)別、場(chǎng)景分析等任務(wù)。
圖尋游戲:上傳目標(biāo)圖像,模型將在復(fù)雜場(chǎng)景中找到匹配的圖像。
視頻理解:上傳視頻文件,模型將提取關(guān)鍵信息,生成視頻摘要或事件檢測(cè)結(jié)果。
GLM-4.5V的API 調(diào)用價(jià)格
- 輸入:2 元/M tokens
- 輸出:6 元/M tokens
響應(yīng)速度:達(dá)到?60-80 tokens/s
GLM-4.5V的應(yīng)用場(chǎng)景
網(wǎng)頁(yè)前端復(fù)刻:上傳網(wǎng)頁(yè)設(shè)計(jì)圖,模型快速生成前端代碼,助力開(kāi)發(fā)者高效實(shí)現(xiàn)網(wǎng)頁(yè)開(kāi)發(fā)。
視覺(jué)問(wèn)答:用戶上傳圖像并提問(wèn),模型根據(jù)圖像內(nèi)容生成準(zhǔn)確答案,可用在教育、智能客服等領(lǐng)域。
圖尋游戲:在復(fù)雜場(chǎng)景中快速找到目標(biāo)圖像,適用于安防監(jiān)控、智能零售及娛樂(lè)游戲開(kāi)發(fā)。
視頻理解:分析視頻內(nèi)容,提取關(guān)鍵信息生成摘要或檢測(cè)事件,優(yōu)化視頻推薦、編輯及監(jiān)控。
圖像描述生成:為上傳的圖像生成精準(zhǔn)描述文本,輔助視障人士理解圖像,提升社交媒體分享體驗(yàn)。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 看總書(shū)記關(guān)心的清潔能源這樣發(fā)電 7904468
- 2 今年最強(qiáng)臺(tái)風(fēng)來(lái)襲 7807854
- 3 澳加英宣布承認(rèn)巴勒斯坦國(guó) 7711994
- 4 長(zhǎng)春航空展這些“首次”不要錯(cuò)過(guò) 7617876
- 5 43歲二胎媽媽患阿爾茨海默病 7521133
- 6 iPhone 17橙色斜挎掛繩賣(mài)斷貨 7428649
- 7 警方通報(bào)于朦朧墜亡 3人造謠被查處 7329117
- 8 女兒發(fā)現(xiàn)父親500多萬(wàn)遺產(chǎn)用于保健 7234368
- 9 三所“零近視”小學(xué)帶來(lái)的啟示 7143999
- 10 劉強(qiáng)東“10年1元年薪”之約到期 7041642