黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標(biāo)簽
我們會(huì)為你匹配適合你的網(wǎng)址導(dǎo)航

    確認(rèn) 跳過

    跳過將刪除所有初始化信息

    MMBench 全方位的多模態(tài)大模型能力評(píng)測體系

    智能 2025-08-19 00:22

    聲明:該文章由作者(美谷朱里)發(fā)表,轉(zhuǎn)載此文章須經(jīng)作者同意并請(qǐng)附上出處(0XUCN)及本頁鏈接。。

    MMBench是多模態(tài)基準(zhǔn)測試,由上海人工智能實(shí)驗(yàn)室、南洋理工大學(xué)、香港中文大學(xué)、新加坡國立大學(xué)和浙江大學(xué)的研究人員聯(lián)合推出。MMBench推出一個(gè)綜合評(píng)估流程,從感知到認(rèn)知能力逐級(jí)細(xì)分評(píng)估,覆蓋20項(xiàng)細(xì)粒度能力,從互聯(lián)網(wǎng)與權(quán)威基準(zhǔn)數(shù)據(jù)集采集約3000道單項(xiàng)選擇題。打破常規(guī)一問一答基于規(guī)則匹配提取選項(xiàng)進(jìn)行評(píng)測,循環(huán)打亂選項(xiàng)驗(yàn)證輸出結(jié)果的一致性,基于ChatGPT精準(zhǔn)匹配模型回復(fù)至選項(xiàng)。MMBench涵蓋多種任務(wù)類型,如視覺問答、圖像描述生成等,基于綜合多維度指標(biāo),為模型提供全面的性能評(píng)估。MMBench 的排行榜展示不同模型在這些任務(wù)上的表現(xiàn),幫助研究者和開發(fā)者了解當(dāng)前多模態(tài)技術(shù)的發(fā)展水平,推動(dòng)相關(guān)領(lǐng)域的技術(shù)進(jìn)步。

    MMBench主要功能

    • 細(xì)粒度能力評(píng)估:將多模態(tài)能力細(xì)分為多個(gè)維度(如感知、推理等),針對(duì)每個(gè)維度設(shè)計(jì)相關(guān)問題,全面評(píng)估模型的細(xì)粒度能力。

    • 大規(guī)模多模態(tài)數(shù)據(jù)集:提供約 3000 個(gè)多項(xiàng)選擇題,覆蓋 20 種能力維度,支持模型在多種場景下的性能測試。

    • 創(chuàng)新評(píng)估策略:采用“循環(huán)評(píng)估”策略,用多次循環(huán)推理測試模型的穩(wěn)定性,減少噪聲影響,提供更可靠的評(píng)估結(jié)果。

    • 多語言支持:提供英文和中文版本的數(shù)據(jù)集,支持對(duì)模型在不同語言環(huán)境下的能力評(píng)估。

    • 數(shù)據(jù)可視化:支持?jǐn)?shù)據(jù)樣本的可視化,幫助用戶更好地理解數(shù)據(jù)結(jié)構(gòu)和內(nèi)容。

    • 官方評(píng)估工具:提供 VLMEvalKit,支持對(duì)多模態(tài)模型的標(biāo)準(zhǔn)化評(píng)估,并可用于提交測試結(jié)果獲取準(zhǔn)確率。

    • 基準(zhǔn)測試與排行榜:排行榜展示不同模型在 MMBench 數(shù)據(jù)集上的性能表現(xiàn),為研究者提供參考。

    如何使用MMBench

    • 安裝依賴:確保安裝必要的工具和庫。MMBench 官方推薦使用其評(píng)估工具 VLMEvalKit。通過以下命令安裝。


    pip <span class="token function">install</span> vlmevalkit
    generic
    58 Bytes
    ? AI工具集


    • 下載數(shù)據(jù)集:從 MMBench 官方 GitHub 倉庫:https://github.com/open-compass/mmbench/下載數(shù)據(jù)集。根據(jù)需求選擇 VLMEvalKit 格式或 Legacy 格式的數(shù)據(jù)集。例如,下載 MMBench-Dev 數(shù)據(jù)集:


    <span class="token function">wget</span> <span class="token operator"><</span>Download Link <span class="token punctuation">(</span>VLMEvalKit<span class="token punctuation">)</span><span class="token operator">></span> <span class="token parameter variable">-O</span> MMBench_DEV_EN.zip
    <span class="token function">unzip</span> MMBench_DEV_EN.zip
    • 加載和瀏覽數(shù)據(jù):用 VLMEvalKit 提供的腳本加載和查看數(shù)據(jù)樣本。以下是示例代碼:


    <span class="token keyword">from</span> vlmeval<span class="token punctuation">.</span>dataset <span class="token keyword">import</span> ImageMCQDataset
    <span class="token keyword">from</span> vlmeval<span class="token punctuation">.</span>smp <span class="token keyword">import</span> mmqa_display
    <span class="token comment"># 加載 MMBench 開發(fā)集</span>
    dataset <span class="token operator">=</span> ImageMCQDataset<span class="token punctuation">(</span><span class="token string">'MMBench_DEV_EN'</span><span class="token punctuation">)</span>
    <span class="token comment"># 查看第 0 個(gè)樣本</span>
    dataset<span class="token punctuation">.</span>display<span class="token punctuation">(</span><span class="token number">0</span><span class="token punctuation">)</span>
    <span class="token comment"># 構(gòu)建多模態(tài)提示</span>
    item <span class="token operator">=</span> dataset<span class="token punctuation">.</span>build_prompt<span class="token punctuation">(</span><span class="token number">0</span><span class="token punctuation">)</span>
    <span class="token keyword">print</span><span class="token punctuation">(</span>item<span class="token punctuation">)</span>
    • 模型推理:用你的多模態(tài)模型對(duì)數(shù)據(jù)集進(jìn)行推理。以下是一個(gè)示例命令,使用 llava_v1.5_7b 模型進(jìn)行推理:


    python run.py <span class="token parameter variable">--model</span> llava_v1.5_7b <span class="token parameter variable">--data</span> MMBench_DEV_EN <span class="token parameter variable">--mode</span> infer

      • 運(yùn)行后,推理結(jié)果將保存為一個(gè) Excel 文件,例如:llava_v1.5_7b/MMBench_DEV_EN.xlsx。

    • 評(píng)估模型性能:用 VLMEvalKit 對(duì)模型的預(yù)測結(jié)果進(jìn)行評(píng)估。評(píng)估工具根據(jù) MMBench 的標(biāo)準(zhǔn)計(jì)算準(zhǔn)確率等指標(biāo)。

    • 提交測試結(jié)果:

      • 使用測試集數(shù)據(jù)進(jìn)行推理,生成預(yù)測結(jié)果文件(如 llava_v1.5_7b/MMBench_TEST_EN.xlsx)。
      • 登錄 MMBench 領(lǐng)先榜上傳預(yù)測結(jié)果文件。
      • 領(lǐng)先榜將自動(dòng)計(jì)算并展示模型在各個(gè)能力維度上的性能表現(xiàn)。
      • 在 MMBench 領(lǐng)先榜上提交測試結(jié)果,按照以下步驟操作:

    MMBench的應(yīng)用場景

    • 模型性能評(píng)估:MMBench 提供全面的多模態(tài)基準(zhǔn)測試平臺(tái),能對(duì)視覺語言模型在不同任務(wù)和能力維度上的表現(xiàn)進(jìn)行細(xì)粒度評(píng)估,幫助研究者和開發(fā)者清晰了解模型的強(qiáng)項(xiàng)和弱項(xiàng),為模型優(yōu)化提供方向。

    • 學(xué)術(shù)研究支持:研究人員用 MMBench 數(shù)據(jù)集進(jìn)行新模型的開發(fā)和驗(yàn)證,推動(dòng)多模態(tài)技術(shù)的前沿研究。

    • 工業(yè)應(yīng)用開發(fā):在工業(yè)領(lǐng)域,企業(yè)評(píng)估和選擇適合其產(chǎn)品的多模態(tài)模型,確保所采用的模型在實(shí)際應(yīng)用場景中具備足夠的性能和穩(wěn)定性,提高產(chǎn)品的市場競爭力。

    • 教育與培訓(xùn):作為教學(xué)資源,幫助學(xué)生和研究人員更好地理解多模態(tài)模型的評(píng)估方法和應(yīng)用場景,基于實(shí)踐項(xiàng)目和課程練習(xí)提升對(duì)多模態(tài)技術(shù)的理解和應(yīng)用能力。

    • 跨領(lǐng)域應(yīng)用:MMBench 的多模態(tài)數(shù)據(jù)集涵蓋多個(gè)領(lǐng)域,如文化、科學(xué)、醫(yī)療等,例如 CCBench(中國文化相關(guān)基準(zhǔn)測試)能評(píng)估模型在特定文化領(lǐng)域的表現(xiàn),推動(dòng)文化研究和跨文化交流。

    關(guān)注我們

    [超站]友情鏈接:

    四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
    關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場:https://www.ijiandao.com/

    圖庫