LLaVA-OneVision-1.5 – EvolvingLMMS-Lab開源的多模態(tài)模型

智能 PRO 稿源：AI工具集 2025-10-16 10:18

LLaVA-OneVision-1.5是什么

LLaVA-OneVision-1.5 是開源的多模態(tài)模型，通過高效訓(xùn)練和高質(zhì)量數(shù)據(jù)實(shí)現(xiàn)高性能、低成本和強(qiáng)復(fù)現(xiàn)性。采用自研的 RICE-ViT 作為視覺編碼器，結(jié)合 2D 旋轉(zhuǎn)位置編碼和區(qū)域感知注意力機(jī)制，支持可變輸入分辨率，增強(qiáng)對象和 OCR 能力。語言模型基于 Qwen3，通過三階段訓(xùn)練流程（語言–圖像對齊、高質(zhì)量知識中期預(yù)訓(xùn)練和視覺指令對齊）進(jìn)行優(yōu)化。訓(xùn)練中采用離線并行數(shù)據(jù)打包和混合并行策略，提升算力和顯存效率。數(shù)據(jù)方面，構(gòu)建了 85M 預(yù)訓(xùn)練數(shù)據(jù)集，采用“概念均衡”策略，涵蓋多種來源；22M 指令數(shù)據(jù)覆蓋八大類別，經(jīng)過多源聚合和格式統(tǒng)一。LLaVA-OneVision-1.5 在多模態(tài)基準(zhǔn)上表現(xiàn)出色，成本可控，且全鏈條透明開放，提供代碼、數(shù)據(jù)和模型資源，助力社區(qū)低成本復(fù)現(xiàn)和拓展。

LLaVA-OneVision-1.5的主要功能

多模態(tài)理解與生成：能處理和理解圖像、文本等多種模態(tài)的信息，生成高質(zhì)量的文本描述、回答問題或進(jìn)行推理。
視覺問答（VQA）：針對圖像中的內(nèi)容回答問題，支持廣泛的視覺任務(wù)，如物體識別、場景理解等。
圖像描述生成：為輸入的圖像生成準(zhǔn)確且富有細(xì)節(jié)的描述文本，幫助用戶更好地理解圖像內(nèi)容。
指令遵循與執(zhí)行：根據(jù)用戶提供的指令執(zhí)行相應(yīng)的任務(wù)，如圖像編輯、信息提取等，具有良好的指令泛化能力。
跨模態(tài)檢索：支持基于文本查詢圖像或基于圖像查詢文本，實(shí)現(xiàn)跨模態(tài)的信息檢索。
長尾識別能力：對數(shù)據(jù)中出現(xiàn)頻率較低的類別或概念也能進(jìn)行有效識別和理解，提升模型的泛化能力。
多語言支持：支持多種語言的輸入和輸出，具備一定的跨語言理解和生成能力。
知識增強(qiáng)：通過高質(zhì)量的知識數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，使模型具備更豐富的世界知識，更好地處理復(fù)雜的多模態(tài)任務(wù)。
高效訓(xùn)練與復(fù)現(xiàn)：采用優(yōu)化的訓(xùn)練策略和數(shù)據(jù)打包技術(shù)，實(shí)現(xiàn)高效的訓(xùn)練過程，提供完整的代碼和數(shù)據(jù)資源，方便社區(qū)復(fù)現(xiàn)和拓展。

LLaVA-OneVision-1.5的技術(shù)原理

視覺編碼器：采用自研的 RICE-ViT（Region-aware Cluster Discrimination Vision Transformer）作為視覺主干，通過區(qū)域感知注意力機(jī)制和統(tǒng)一的區(qū)域簇判別損失，增強(qiáng)對圖像中局部區(qū)域的語義理解，同時支持可變輸入分辨率。
投影器設(shè)計：通過多層感知機(jī)（MLP）將視覺特征映射到語言模型的文本嵌入空間，實(shí)現(xiàn)視覺特征與語言特征的有效對齊。
語言模型：基于 Qwen3 作為語言骨干，提供強(qiáng)大的語言生成和理解能力，支持多模態(tài)任務(wù)中的文本處理。
三階段訓(xùn)練流程：包括語言–圖像對齊、高質(zhì)量知識中期預(yù)訓(xùn)練和視覺指令對齊，逐步提升模型的多模態(tài)對齊能力和任務(wù)泛化能力。
離線并行數(shù)據(jù)打包：通過特征驅(qū)動的“概念均衡”策略構(gòu)建預(yù)訓(xùn)練數(shù)據(jù)集，并采用離線并行數(shù)據(jù)打包技術(shù)，減少 padding 浪費(fèi)，提高訓(xùn)練效率。
混合并行與長上下文優(yōu)化：在訓(xùn)練過程中采用混合并行（張量并行、流水并行和序列并行）以及長上下文優(yōu)化技術(shù)，提升算力利用和顯存效率。
數(shù)據(jù)構(gòu)建與優(yōu)化：構(gòu)建了大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集和指令微調(diào)數(shù)據(jù)集，通過多源聚合、格式統(tǒng)一和安全篩除等手段，確保數(shù)據(jù)的高質(zhì)量和多樣性。

LLaVA-OneVision-1.5的項(xiàng)目地址

Github地址：https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
HuggingFace模型庫：https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713
arXiv技術(shù)論文：https://arxiv.org/pdf/2509.23661
在線體驗(yàn)Demo：https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

LLaVA-OneVision-1.5的應(yīng)用場景

智能客服：通過理解用戶上傳的圖像或文本信息，提供自動化的客服支持，解答問題并提供解決方案。
內(nèi)容創(chuàng)作：幫助創(chuàng)作者生成圖像描述、創(chuàng)意文案或故事，提升創(chuàng)作效率和質(zhì)量。
教育輔助：在教育領(lǐng)域，用于解釋圖像中的內(nèi)容，輔助教學(xué)，幫助學(xué)生更好地理解復(fù)雜的視覺信息。
醫(yī)療影像分析：輔助醫(yī)生解讀醫(yī)學(xué)影像，提供初步診斷建議或生成影像報告。
智能駕駛：在自動駕駛系統(tǒng)中，用于理解道路場景，輔助決策，提升駕駛安全性。
圖像編輯與設(shè)計：根據(jù)用戶指令對圖像進(jìn)行編輯、裁剪、添加特效等操作，提升圖像處理的便捷性。

0XU.CN