
MMBench 全方位的多模態(tài)大模型能力評(píng)測體系
聲明:該文章由作者(美谷朱里)發(fā)表,轉(zhuǎn)載此文章須經(jīng)作者同意并請(qǐng)附上出處(0XUCN)及本頁鏈接。。
MMBench是多模態(tài)基準(zhǔn)測試,由上海人工智能實(shí)驗(yàn)室、南洋理工大學(xué)、香港中文大學(xué)、新加坡國立大學(xué)和浙江大學(xué)的研究人員聯(lián)合推出。MMBench推出一個(gè)綜合評(píng)估流程,從感知到認(rèn)知能力逐級(jí)細(xì)分評(píng)估,覆蓋20項(xiàng)細(xì)粒度能力,從互聯(lián)網(wǎng)與權(quán)威基準(zhǔn)數(shù)據(jù)集采集約3000道單項(xiàng)選擇題。打破常規(guī)一問一答基于規(guī)則匹配提取選項(xiàng)進(jìn)行評(píng)測,循環(huán)打亂選項(xiàng)驗(yàn)證輸出結(jié)果的一致性,基于ChatGPT精準(zhǔn)匹配模型回復(fù)至選項(xiàng)。MMBench涵蓋多種任務(wù)類型,如視覺問答、圖像描述生成等,基于綜合多維度指標(biāo),為模型提供全面的性能評(píng)估。MMBench 的排行榜展示不同模型在這些任務(wù)上的表現(xiàn),幫助研究者和開發(fā)者了解當(dāng)前多模態(tài)技術(shù)的發(fā)展水平,推動(dòng)相關(guān)領(lǐng)域的技術(shù)進(jìn)步。
MMBench主要功能
細(xì)粒度能力評(píng)估:將多模態(tài)能力細(xì)分為多個(gè)維度(如感知、推理等),針對(duì)每個(gè)維度設(shè)計(jì)相關(guān)問題,全面評(píng)估模型的細(xì)粒度能力。
大規(guī)模多模態(tài)數(shù)據(jù)集:提供約 3000 個(gè)多項(xiàng)選擇題,覆蓋 20 種能力維度,支持模型在多種場景下的性能測試。
創(chuàng)新評(píng)估策略:采用“循環(huán)評(píng)估”策略,用多次循環(huán)推理測試模型的穩(wěn)定性,減少噪聲影響,提供更可靠的評(píng)估結(jié)果。
多語言支持:提供英文和中文版本的數(shù)據(jù)集,支持對(duì)模型在不同語言環(huán)境下的能力評(píng)估。
數(shù)據(jù)可視化:支持?jǐn)?shù)據(jù)樣本的可視化,幫助用戶更好地理解數(shù)據(jù)結(jié)構(gòu)和內(nèi)容。
官方評(píng)估工具:提供 VLMEvalKit,支持對(duì)多模態(tài)模型的標(biāo)準(zhǔn)化評(píng)估,并可用于提交測試結(jié)果獲取準(zhǔn)確率。
基準(zhǔn)測試與排行榜:排行榜展示不同模型在 MMBench 數(shù)據(jù)集上的性能表現(xiàn),為研究者提供參考。
如何使用MMBench
安裝依賴:確保安裝必要的工具和庫。MMBench 官方推薦使用其評(píng)估工具 VLMEvalKit。通過以下命令安裝。
下載數(shù)據(jù)集:從 MMBench 官方 GitHub 倉庫:https://github.com/open-compass/mmbench/下載數(shù)據(jù)集。根據(jù)需求選擇 VLMEvalKit 格式或 Legacy 格式的數(shù)據(jù)集。例如,下載 MMBench-Dev 數(shù)據(jù)集:
加載和瀏覽數(shù)據(jù):用 VLMEvalKit 提供的腳本加載和查看數(shù)據(jù)樣本。以下是示例代碼:
模型推理:用你的多模態(tài)模型對(duì)數(shù)據(jù)集進(jìn)行推理。以下是一個(gè)示例命令,使用 llava_v1.5_7b 模型進(jìn)行推理:
運(yùn)行后,推理結(jié)果將保存為一個(gè) Excel 文件,例如:llava_v1.5_7b/MMBench_DEV_EN.xlsx。
評(píng)估模型性能:用 VLMEvalKit 對(duì)模型的預(yù)測結(jié)果進(jìn)行評(píng)估。評(píng)估工具根據(jù) MMBench 的標(biāo)準(zhǔn)計(jì)算準(zhǔn)確率等指標(biāo)。
提交測試結(jié)果:
- 使用測試集數(shù)據(jù)進(jìn)行推理,生成預(yù)測結(jié)果文件(如 llava_v1.5_7b/MMBench_TEST_EN.xlsx)。
- 登錄 MMBench 領(lǐng)先榜上傳預(yù)測結(jié)果文件。
- 領(lǐng)先榜將自動(dòng)計(jì)算并展示模型在各個(gè)能力維度上的性能表現(xiàn)。
在 MMBench 領(lǐng)先榜上提交測試結(jié)果,按照以下步驟操作:
MMBench的應(yīng)用場景
模型性能評(píng)估:MMBench 提供全面的多模態(tài)基準(zhǔn)測試平臺(tái),能對(duì)視覺語言模型在不同任務(wù)和能力維度上的表現(xiàn)進(jìn)行細(xì)粒度評(píng)估,幫助研究者和開發(fā)者清晰了解模型的強(qiáng)項(xiàng)和弱項(xiàng),為模型優(yōu)化提供方向。
學(xué)術(shù)研究支持:研究人員用 MMBench 數(shù)據(jù)集進(jìn)行新模型的開發(fā)和驗(yàn)證,推動(dòng)多模態(tài)技術(shù)的前沿研究。
工業(yè)應(yīng)用開發(fā):在工業(yè)領(lǐng)域,企業(yè)評(píng)估和選擇適合其產(chǎn)品的多模態(tài)模型,確保所采用的模型在實(shí)際應(yīng)用場景中具備足夠的性能和穩(wěn)定性,提高產(chǎn)品的市場競爭力。
教育與培訓(xùn):作為教學(xué)資源,幫助學(xué)生和研究人員更好地理解多模態(tài)模型的評(píng)估方法和應(yīng)用場景,基于實(shí)踐項(xiàng)目和課程練習(xí)提升對(duì)多模態(tài)技術(shù)的理解和應(yīng)用能力。
跨領(lǐng)域應(yīng)用:MMBench 的多模態(tài)數(shù)據(jù)集涵蓋多個(gè)領(lǐng)域,如文化、科學(xué)、醫(yī)療等,例如 CCBench(中國文化相關(guān)基準(zhǔn)測試)能評(píng)估模型在特定文化領(lǐng)域的表現(xiàn),推動(dòng)文化研究和跨文化交流。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場:https://www.ijiandao.com/
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904156
- 2 央視曝光直播間“高端四件套”貓膩 7809476
- 3 以總理:絕不會(huì)有巴勒斯坦國 等著瞧 7712831
- 4 長春航空展這些“首次”不要錯(cuò)過 7617635
- 5 9月23日晚8點(diǎn)將上演“龍收尾”天象 7519778
- 6 今年最強(qiáng)臺(tái)風(fēng)來襲 7423543
- 7 43歲二胎媽媽患阿爾茨海默病 7327785
- 8 女兒發(fā)現(xiàn)父親500多萬遺產(chǎn)用于保健 7236217
- 9 iPhone 17橙色斜挎掛繩賣斷貨 7138698
- 10 三所“零近視”小學(xué)帶來的啟示 7041746