InternVL3.5 – 上海AI Lab開(kāi)源的多模態(tài)大模型

智能 2025-09-03 14:08

聲明：該文章來(lái)自（AI工具集）版權(quán)由原作者所有，K2OS渲染引擎提供網(wǎng)頁(yè)加速服務(wù)。

InternVL3.5是什么

InternVL3.5（書生·萬(wàn)象3.5）是上海人工智能實(shí)驗(yàn)室開(kāi)源的多模態(tài)大模型，模型在通用能力、推理能力和部署效率上全面升級(jí)，提供從10億到2410億參數(shù)的九種尺寸版本，覆蓋不同資源需求場(chǎng)景，包含稠密模型和專家混合模型（MoE），是首個(gè)支持GPT-OSS語(yǔ)言模型基座的開(kāi)源多模態(tài)大模型。

InternVL3.5 采用級(jí)聯(lián)式強(qiáng)化學(xué)習(xí)（Cascade RL）框架，通過(guò)“離線預(yù)熱-在線精調(diào)”兩階段流程，顯著提升推理能力。旗艦?zāi)Ｐ?InternVL3.5-241B-A28B 在多學(xué)科推理基準(zhǔn) MMMU 中獲得開(kāi)源模型最高分77.7分，超越 GPT-5。借助動(dòng)態(tài)視覺(jué)分辨率路由（ViR）和解耦部署框架（DvD），模型在高分辨率輸入下的響應(yīng)速度大幅提升，38B 模型的吞吐量提升達(dá)4.05倍。

InternVL3.5的主要功能

多模態(tài)感知：在圖像、視頻問(wèn)答等多模態(tài)感知任務(wù)中表現(xiàn)出色，241B-A28B 模型以 74.1 的平均得分超越現(xiàn)有開(kāi)源模型，接近商業(yè)模型 GPT-5（74.0）。
多模態(tài)推理：在多學(xué)科推理基準(zhǔn) MMMU 中獲得 77.7 分，較前代提升超 5 個(gè)百分點(diǎn)，位列開(kāi)源榜首。
文本能力：在 AIME、GPQA 及 IFEval 等多個(gè)基準(zhǔn)中，模型可以取得 85.3 的均分，處于開(kāi)源領(lǐng)先。
GUI 智能體：強(qiáng)化了 GUI 智能體能力，可實(shí)現(xiàn)跨平臺(tái)自動(dòng)化操作，例如在 ScreenSpot GUI 定位任務(wù)中以 92.9 分超越主流開(kāi)源模型。
具身空間推理：具備更強(qiáng)的 grounding 能力，可以泛化到全新的復(fù)雜具身場(chǎng)景，支持可泛化的長(zhǎng)程物體抓取操作。
矢量圖形處理：在 SGP-Bench 以 70.7 分刷新開(kāi)源紀(jì)錄，能夠有效應(yīng)用于網(wǎng)頁(yè)圖形生成與工程圖紙解析等專業(yè)場(chǎng)景。

InternVL3.5的技術(shù)原理

級(jí)聯(lián)式強(qiáng)化學(xué)習(xí)（Cascade RL）：通過(guò)“離線預(yù)熱-在線精調(diào)”兩階段流程，離線階段使用混合偏好優(yōu)化（MPO）算法快速提升基礎(chǔ)推理能力，為后續(xù)訓(xùn)練提供高質(zhì)量樣本；在線階段基于 GSPO 算法，以模型自身生成的樣本為基礎(chǔ)，動(dòng)態(tài)調(diào)整輸出分布，顯著提升訓(xùn)練穩(wěn)定性和推理性能。
動(dòng)態(tài)視覺(jué)分辨率路由（ViR）：為每個(gè)圖像切片動(dòng)態(tài)選擇壓縮率，在語(yǔ)義密集區(qū)域保留高分辨率，背景區(qū)域自適應(yīng)壓縮，減少視覺(jué) tokens，顯著提升推理速度，同時(shí)幾乎不損失性能。
解耦部署框架（DvD）：將視覺(jué)編碼器與語(yǔ)言模型分置于不同 GPU，結(jié)合 BF16 精度特征傳輸與異步流水線設(shè)計(jì)，使視覺(jué)計(jì)算與語(yǔ)言生成并行執(zhí)行，大幅提升吞吐量，解決傳統(tǒng)串行部署的資源阻塞問(wèn)題。
全量級(jí)模型優(yōu)化：提供從 10 億到 2410 億參數(shù)的九種尺寸模型，覆蓋不同資源需求場(chǎng)景，包含稠密模型和專家混合模型（MoE），首個(gè)支持 GPT-OSS 語(yǔ)言模型基座的開(kāi)源多模態(tài)大模型，滿足多樣化應(yīng)用需求。
多模態(tài)協(xié)同推理：通過(guò)融合視覺(jué)與語(yǔ)言等多維信息，實(shí)現(xiàn)多模態(tài)任務(wù)的高效處理，提升模型在復(fù)雜任務(wù)中的推理能力，推動(dòng)多模態(tài)技術(shù)從“理解”到“行動(dòng)”的跨越。

InternVL3.5的項(xiàng)目地址

Github倉(cāng)庫(kù)：https://github.com/OpenGVLab/InternVL
HuggingFace模型地址：https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
技術(shù)報(bào)告：https://huggingface.co/papers/2508.18265
在線體驗(yàn)地址：書生大模型

InternVL3.5的應(yīng)用場(chǎng)景

辦公自動(dòng)化：通過(guò) GUI 智能體功能，實(shí)現(xiàn)跨平臺(tái)的自動(dòng)化辦公操作，如自動(dòng)處理 Excel 數(shù)據(jù)錄入、PPT 設(shè)計(jì)排版、郵件發(fā)送等任務(wù)，提高工作效率。
智能家居控制：利用具身空間推理能力，輔助機(jī)器人在家庭環(huán)境中完成物品定位、路徑規(guī)劃和物理交互任務(wù)，例如智能清潔機(jī)器人根據(jù)環(huán)境布局自主規(guī)劃清潔路徑。
教育輔導(dǎo)：在多模態(tài)推理和文本能力的支持下，為學(xué)生提供個(gè)性化的學(xué)習(xí)輔導(dǎo)，解答復(fù)雜的學(xué)科問(wèn)題，如數(shù)學(xué)物理題解、邏輯推理訓(xùn)練等，提升學(xué)習(xí)效果。
內(nèi)容創(chuàng)作：借助通用多模態(tài)感知能力，自動(dòng)生成圖像描述、視頻字幕等，幫助創(chuàng)作者快速生成創(chuàng)意內(nèi)容，提高內(nèi)容創(chuàng)作的效率和質(zhì)量。
網(wǎng)頁(yè)設(shè)計(jì)與圖形生成：利用矢量圖形處理能力，根據(jù)用戶指令生成或編輯 SVG 矢量圖形，適用于網(wǎng)頁(yè)設(shè)計(jì)、圖標(biāo)制作等，提升設(shè)計(jì)效率和個(gè)性化體驗(yàn)。

關(guān)注我們