
MMBench 全方位的多模態(tài)大模型能力評測體系
MMBench是多模態(tài)基準(zhǔn)測試,由上海人工智能實(shí)驗(yàn)室、南洋理工大學(xué)、香港中文大學(xué)、新加坡國立大學(xué)和浙江大學(xué)的研究人員聯(lián)合推出。MMBench推出一個(gè)綜合評估流程,從感知到認(rèn)知能力逐級(jí)細(xì)分評估,覆蓋20項(xiàng)細(xì)粒度能力,從互聯(lián)網(wǎng)與權(quán)威基準(zhǔn)數(shù)據(jù)集采集約3000道單項(xiàng)選擇題。打破常規(guī)一問一答基于規(guī)則匹配提取選項(xiàng)進(jìn)行評測,循環(huán)打亂選項(xiàng)驗(yàn)證輸出結(jié)果的一致性,基于ChatGPT精準(zhǔn)匹配模型回復(fù)至選項(xiàng)。MMBench涵蓋多種任務(wù)類型,如視覺問答、圖像描述生成等,基于綜合多維度指標(biāo),為模型提供全面的性能評估。MMBench 的排行榜展示不同模型在這些任務(wù)上的表現(xiàn),幫助研究者和開發(fā)者了解當(dāng)前多模態(tài)技術(shù)的發(fā)展水平,推動(dòng)相關(guān)領(lǐng)域的技術(shù)進(jìn)步。
MMBench主要功能
細(xì)粒度能力評估:將多模態(tài)能力細(xì)分為多個(gè)維度(如感知、推理等),針對每個(gè)維度設(shè)計(jì)相關(guān)問題,全面評估模型的細(xì)粒度能力。
大規(guī)模多模態(tài)數(shù)據(jù)集:提供約 3000 個(gè)多項(xiàng)選擇題,覆蓋 20 種能力維度,支持模型在多種場景下的性能測試。
創(chuàng)新評估策略:采用“循環(huán)評估”策略,用多次循環(huán)推理測試模型的穩(wěn)定性,減少噪聲影響,提供更可靠的評估結(jié)果。
多語言支持:提供英文和中文版本的數(shù)據(jù)集,支持對模型在不同語言環(huán)境下的能力評估。
數(shù)據(jù)可視化:支持?jǐn)?shù)據(jù)樣本的可視化,幫助用戶更好地理解數(shù)據(jù)結(jié)構(gòu)和內(nèi)容。
官方評估工具:提供 VLMEvalKit,支持對多模態(tài)模型的標(biāo)準(zhǔn)化評估,并可用于提交測試結(jié)果獲取準(zhǔn)確率。
基準(zhǔn)測試與排行榜:排行榜展示不同模型在 MMBench 數(shù)據(jù)集上的性能表現(xiàn),為研究者提供參考。
如何使用MMBench
安裝依賴:確保安裝必要的工具和庫。MMBench 官方推薦使用其評估工具 VLMEvalKit。通過以下命令安裝。
下載數(shù)據(jù)集:從 MMBench 官方 GitHub 倉庫:https://github.com/open-compass/mmbench/下載數(shù)據(jù)集。根據(jù)需求選擇 VLMEvalKit 格式或 Legacy 格式的數(shù)據(jù)集。例如,下載 MMBench-Dev 數(shù)據(jù)集:
加載和瀏覽數(shù)據(jù):用 VLMEvalKit 提供的腳本加載和查看數(shù)據(jù)樣本。以下是示例代碼:
模型推理:用你的多模態(tài)模型對數(shù)據(jù)集進(jìn)行推理。以下是一個(gè)示例命令,使用 llava_v1.5_7b 模型進(jìn)行推理:
運(yùn)行后,推理結(jié)果將保存為一個(gè) Excel 文件,例如:llava_v1.5_7b/MMBench_DEV_EN.xlsx。
評估模型性能:用 VLMEvalKit 對模型的預(yù)測結(jié)果進(jìn)行評估。評估工具根據(jù) MMBench 的標(biāo)準(zhǔn)計(jì)算準(zhǔn)確率等指標(biāo)。
提交測試結(jié)果:
- 使用測試集數(shù)據(jù)進(jìn)行推理,生成預(yù)測結(jié)果文件(如 llava_v1.5_7b/MMBench_TEST_EN.xlsx)。
- 登錄 MMBench 領(lǐng)先榜上傳預(yù)測結(jié)果文件。
- 領(lǐng)先榜將自動(dòng)計(jì)算并展示模型在各個(gè)能力維度上的性能表現(xiàn)。
在 MMBench 領(lǐng)先榜上提交測試結(jié)果,按照以下步驟操作:
MMBench的應(yīng)用場景
模型性能評估:MMBench 提供全面的多模態(tài)基準(zhǔn)測試平臺(tái),能對視覺語言模型在不同任務(wù)和能力維度上的表現(xiàn)進(jìn)行細(xì)粒度評估,幫助研究者和開發(fā)者清晰了解模型的強(qiáng)項(xiàng)和弱項(xiàng),為模型優(yōu)化提供方向。
學(xué)術(shù)研究支持:研究人員用 MMBench 數(shù)據(jù)集進(jìn)行新模型的開發(fā)和驗(yàn)證,推動(dòng)多模態(tài)技術(shù)的前沿研究。
工業(yè)應(yīng)用開發(fā):在工業(yè)領(lǐng)域,企業(yè)評估和選擇適合其產(chǎn)品的多模態(tài)模型,確保所采用的模型在實(shí)際應(yīng)用場景中具備足夠的性能和穩(wěn)定性,提高產(chǎn)品的市場競爭力。
教育與培訓(xùn):作為教學(xué)資源,幫助學(xué)生和研究人員更好地理解多模態(tài)模型的評估方法和應(yīng)用場景,基于實(shí)踐項(xiàng)目和課程練習(xí)提升對多模態(tài)技術(shù)的理解和應(yīng)用能力。
跨領(lǐng)域應(yīng)用:MMBench 的多模態(tài)數(shù)據(jù)集涵蓋多個(gè)領(lǐng)域,如文化、科學(xué)、醫(yī)療等,例如 CCBench(中國文化相關(guān)基準(zhǔn)測試)能評估模型在特定文化領(lǐng)域的表現(xiàn),推動(dòng)文化研究和跨文化交流。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場:https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904633
- 2 今年最強(qiáng)臺(tái)風(fēng)來襲 7808843
- 3 澳加英宣布承認(rèn)巴勒斯坦國 7713285
- 4 長春航空展這些“首次”不要錯(cuò)過 7616028
- 5 43歲二胎媽媽患阿爾茨海默病 7521510
- 6 iPhone 17橙色斜挎掛繩賣斷貨 7428535
- 7 老奶奶去世3年 鄰居幫打掃門前落葉 7329280
- 8 三所“零近視”小學(xué)帶來的啟示 7239197
- 9 女兒發(fā)現(xiàn)父親500多萬遺產(chǎn)用于保健 7143995
- 10 英國航母從南?!傲锪恕?/a> 7047149