
InternVL3.5 – 上海AI Lab開源的多模態(tài)大模型
InternVL3.5是什么
InternVL3.5(書生·萬象3.5)是上海人工智能實驗室開源的多模態(tài)大模型,模型在通用能力、推理能力和部署效率上全面升級,提供從10億到2410億參數(shù)的九種尺寸版本,覆蓋不同資源需求場景,包含稠密模型和專家混合模型(MoE),是首個支持GPT-OSS語言模型基座的開源多模態(tài)大模型。
InternVL3.5 采用級聯(lián)式強化學(xué)習(xí)(Cascade RL)框架,通過“離線預(yù)熱-在線精調(diào)”兩階段流程,顯著提升推理能力。旗艦?zāi)P?InternVL3.5-241B-A28B 在多學(xué)科推理基準 MMMU 中獲得開源模型最高分77.7分,超越 GPT-5。借助動態(tài)視覺分辨率路由(ViR)和解耦部署框架(DvD),模型在高分辨率輸入下的響應(yīng)速度大幅提升,38B 模型的吞吐量提升達4.05倍。
InternVL3.5的主要功能
- 多模態(tài)感知:在圖像、視頻問答等多模態(tài)感知任務(wù)中表現(xiàn)出色,241B-A28B 模型以 74.1 的平均得分超越現(xiàn)有開源模型,接近商業(yè)模型 GPT-5(74.0)。
- 多模態(tài)推理:在多學(xué)科推理基準 MMMU 中獲得 77.7 分,較前代提升超 5 個百分點,位列開源榜首。
- 文本能力:在 AIME、GPQA 及 IFEval 等多個基準中,模型可以取得 85.3 的均分,處于開源領(lǐng)先。
- GUI 智能體:強化了 GUI 智能體能力,可實現(xiàn)跨平臺自動化操作,例如在 ScreenSpot GUI 定位任務(wù)中以 92.9 分超越主流開源模型。
- 具身空間推理:具備更強的 grounding 能力,可以泛化到全新的復(fù)雜具身場景,支持可泛化的長程物體抓取操作。
- 矢量圖形處理:在 SGP-Bench 以 70.7 分刷新開源紀錄,能夠有效應(yīng)用于網(wǎng)頁圖形生成與工程圖紙解析等專業(yè)場景。
InternVL3.5的技術(shù)原理
- 級聯(lián)式強化學(xué)習(xí)(Cascade RL):通過“離線預(yù)熱-在線精調(diào)”兩階段流程,離線階段使用混合偏好優(yōu)化(MPO)算法快速提升基礎(chǔ)推理能力,為后續(xù)訓(xùn)練提供高質(zhì)量樣本;在線階段基于 GSPO 算法,以模型自身生成的樣本為基礎(chǔ),動態(tài)調(diào)整輸出分布,顯著提升訓(xùn)練穩(wěn)定性和推理性能。
- 動態(tài)視覺分辨率路由(ViR):為每個圖像切片動態(tài)選擇壓縮率,在語義密集區(qū)域保留高分辨率,背景區(qū)域自適應(yīng)壓縮,減少視覺 tokens,顯著提升推理速度,同時幾乎不損失性能。
- 解耦部署框架(DvD):將視覺編碼器與語言模型分置于不同 GPU,結(jié)合 BF16 精度特征傳輸與異步流水線設(shè)計,使視覺計算與語言生成并行執(zhí)行,大幅提升吞吐量,解決傳統(tǒng)串行部署的資源阻塞問題。
- 全量級模型優(yōu)化:提供從 10 億到 2410 億參數(shù)的九種尺寸模型,覆蓋不同資源需求場景,包含稠密模型和專家混合模型(MoE),首個支持 GPT-OSS 語言模型基座的開源多模態(tài)大模型,滿足多樣化應(yīng)用需求。
- 多模態(tài)協(xié)同推理:通過融合視覺與語言等多維信息,實現(xiàn)多模態(tài)任務(wù)的高效處理,提升模型在復(fù)雜任務(wù)中的推理能力,推動多模態(tài)技術(shù)從“理解”到“行動”的跨越。
InternVL3.5的項目地址
Github倉庫:https://github.com/OpenGVLab/InternVL
HuggingFace模型地址:https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
技術(shù)報告:https://huggingface.co/papers/2508.18265
在線體驗地址:書生大模型
InternVL3.5的應(yīng)用場景
- 辦公自動化:通過 GUI 智能體功能,實現(xiàn)跨平臺的自動化辦公操作,如自動處理 Excel 數(shù)據(jù)錄入、PPT 設(shè)計排版、郵件發(fā)送等任務(wù),提高工作效率。
- 智能家居控制:利用具身空間推理能力,輔助機器人在家庭環(huán)境中完成物品定位、路徑規(guī)劃和物理交互任務(wù),例如智能清潔機器人根據(jù)環(huán)境布局自主規(guī)劃清潔路徑。
- 教育輔導(dǎo):在多模態(tài)推理和文本能力的支持下,為學(xué)生提供個性化的學(xué)習(xí)輔導(dǎo),解答復(fù)雜的學(xué)科問題,如數(shù)學(xué)物理題解、邏輯推理訓(xùn)練等,提升學(xué)習(xí)效果。
- 內(nèi)容創(chuàng)作:借助通用多模態(tài)感知能力,自動生成圖像描述、視頻字幕等,幫助創(chuàng)作者快速生成創(chuàng)意內(nèi)容,提高內(nèi)容創(chuàng)作的效率和質(zhì)量。
- 網(wǎng)頁設(shè)計與圖形生成:利用矢量圖形處理能力,根據(jù)用戶指令生成或編輯 SVG 矢量圖形,適用于網(wǎng)頁設(shè)計、圖標制作等,提升設(shè)計效率和個性化體驗。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

隨時掌握互聯(lián)網(wǎng)精彩
- 1 中美完全可以相互成就、共同繁榮 7904034
- 2 加沙已變“死城” 7809358
- 3 暴雨中臺下只剩1名觀眾 演員仍開演 7714379
- 4 近距離感受“大國重器” 7618832
- 5 美國大豆中國訂單量仍為零 7519722
- 6 試管嬰兒患腎病 父母要求醫(yī)院擔全責 7424149
- 7 女子婚后起訴父母返還18萬彩禮 7329461
- 8 委內(nèi)瑞拉:美國“不宣而戰(zhàn)” 7234348
- 9 金價飆升 有非法淘金人井下生活兩年 7135491
- 10 網(wǎng)紅“戶晨風”多平臺賬號被封 7045475