黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標(biāo)簽
我們會(huì)為你匹配適合你的網(wǎng)址導(dǎo)航

確認(rèn) 跳過

跳過將刪除所有初始化信息

您的位置：0XUCN > 資訊 > 智能

新聞分類

科技
互聯(lián)網(wǎng)
- 融資
- 新零售
- 企服
- 共享
- 教育
- 醫(yī)療
- 物聯(lián)網(wǎng)
- 安全
- 智能
- 政策
- 動(dòng)態(tài)
- 技術(shù)
- 軟件
娛樂
- 電影
- 電視劇
- 綜藝
- 動(dòng)漫
- 音樂
- 明星
- 網(wǎng)娛
- 韓娛
- 熱點(diǎn)
- 值得買
游戲
- 手游
- 端游
- 頁游
- 主機(jī)
- 公告
- 攻略
體育
- 業(yè)界
- 足球
- 籃球
- 彩票
汽車
- 車訊
- 新車
- 評測
時(shí)尚
- 奢侈品
- 時(shí)裝
- 美妝
- 美體
健康
- 疾病
- 兩性
- 健美
- 醫(yī)美
- 養(yǎng)生
- 新冠
旅游
母嬰
- 孕產(chǎn)
- 哺育
- 早教
- 親子
- 萌娃
房產(chǎn)
- 資訊
- 家居
- 家電
教育
- 高考
- 考研
- 公考
- 留學(xué)
- 高校
- 小初高
寵物
其它
造數(shù)

MMBench 全方位的多模態(tài)大模型能力評測體系

智能 PRO 作者：美谷朱里 2025-08-19 00:22

MMBench是多模態(tài)基準(zhǔn)測試，由上海人工智能實(shí)驗(yàn)室、南洋理工大學(xué)、香港中文大學(xué)、新加坡國立大學(xué)和浙江大學(xué)的研究人員聯(lián)合推出。MMBench推出一個(gè)綜合評估流程，從感知到認(rèn)知能力逐級(jí)細(xì)分評估，覆蓋20項(xiàng)細(xì)粒度能力，從互聯(lián)網(wǎng)與權(quán)威基準(zhǔn)數(shù)據(jù)集采集約3000道單項(xiàng)選擇題。打破常規(guī)一問一答基于規(guī)則匹配提取選項(xiàng)進(jìn)行評測，循環(huán)打亂選項(xiàng)驗(yàn)證輸出結(jié)果的一致性，基于ChatGPT精準(zhǔn)匹配模型回復(fù)至選項(xiàng)。MMBench涵蓋多種任務(wù)類型，如視覺問答、圖像描述生成等，基于綜合多維度指標(biāo)，為模型提供全面的性能評估。MMBench 的排行榜展示不同模型在這些任務(wù)上的表現(xiàn)，幫助研究者和開發(fā)者了解當(dāng)前多模態(tài)技術(shù)的發(fā)展水平，推動(dòng)相關(guān)領(lǐng)域的技術(shù)進(jìn)步。

MMBench主要功能

細(xì)粒度能力評估：將多模態(tài)能力細(xì)分為多個(gè)維度（如感知、推理等），針對每個(gè)維度設(shè)計(jì)相關(guān)問題，全面評估模型的細(xì)粒度能力。
大規(guī)模多模態(tài)數(shù)據(jù)集：提供約 3000 個(gè)多項(xiàng)選擇題，覆蓋 20 種能力維度，支持模型在多種場景下的性能測試。
創(chuàng)新評估策略：采用“循環(huán)評估”策略，用多次循環(huán)推理測試模型的穩(wěn)定性，減少噪聲影響，提供更可靠的評估結(jié)果。
多語言支持：提供英文和中文版本的數(shù)據(jù)集，支持對模型在不同語言環(huán)境下的能力評估。
數(shù)據(jù)可視化：支持?jǐn)?shù)據(jù)樣本的可視化，幫助用戶更好地理解數(shù)據(jù)結(jié)構(gòu)和內(nèi)容。
官方評估工具：提供 VLMEvalKit，支持對多模態(tài)模型的標(biāo)準(zhǔn)化評估，并可用于提交測試結(jié)果獲取準(zhǔn)確率。
基準(zhǔn)測試與排行榜：排行榜展示不同模型在 MMBench 數(shù)據(jù)集上的性能表現(xiàn)，為研究者提供參考。

如何使用MMBench

安裝依賴：確保安裝必要的工具和庫。MMBench 官方推薦使用其評估工具 VLMEvalKit。通過以下命令安裝。

pip <span class="token function">install</span> vlmevalkit

generic

58 Bytes

? AI工具集

下載數(shù)據(jù)集：從 MMBench 官方 GitHub 倉庫：https://github.com/open-compass/mmbench/下載數(shù)據(jù)集。根據(jù)需求選擇 VLMEvalKit 格式或 Legacy 格式的數(shù)據(jù)集。例如，下載 MMBench-Dev 數(shù)據(jù)集：

<span class="token function">wget</span> <span class="token operator"><</span>Download Link <span class="token punctuation">(</span>VLMEvalKit<span class="token punctuation">)</span><span class="token operator">></span> <span class="token parameter variable">-O</span> MMBench_DEV_EN.zip

<span class="token function">unzip</span> MMBench_DEV_EN.zip

加載和瀏覽數(shù)據(jù)：用 VLMEvalKit 提供的腳本加載和查看數(shù)據(jù)樣本。以下是示例代碼：

<span class="token keyword">from</span> vlmeval<span class="token punctuation">.</span>dataset <span class="token keyword">import</span> ImageMCQDataset

<span class="token keyword">from</span> vlmeval<span class="token punctuation">.</span>smp <span class="token keyword">import</span> mmqa_display

<span class="token comment"># 加載 MMBench 開發(fā)集</span>

dataset <span class="token operator">=</span> ImageMCQDataset<span class="token punctuation">(</span><span class="token string">'MMBench_DEV_EN'</span><span class="token punctuation">)</span>

<span class="token comment"># 查看第 0 個(gè)樣本</span>

dataset<span class="token punctuation">.</span>display<span class="token punctuation">(</span><span class="token number">0</span><span class="token punctuation">)</span>

<span class="token comment"># 構(gòu)建多模態(tài)提示</span>

item <span class="token operator">=</span> dataset<span class="token punctuation">.</span>build_prompt<span class="token punctuation">(</span><span class="token number">0</span><span class="token punctuation">)</span>

<span class="token keyword">print</span><span class="token punctuation">(</span>item<span class="token punctuation">)</span>

模型推理：用你的多模態(tài)模型對數(shù)據(jù)集進(jìn)行推理。以下是一個(gè)示例命令，使用 llava_v1.5_7b 模型進(jìn)行推理：

python run.py <span class="token parameter variable">--model</span> llava_v1.5_7b <span class="token parameter variable">--data</span> MMBench_DEV_EN <span class="token parameter variable">--mode</span> infer

運(yùn)行后，推理結(jié)果將保存為一個(gè) Excel 文件，例如：llava_v1.5_7b/MMBench_DEV_EN.xlsx。

評估模型性能：用 VLMEvalKit 對模型的預(yù)測結(jié)果進(jìn)行評估。評估工具根據(jù) MMBench 的標(biāo)準(zhǔn)計(jì)算準(zhǔn)確率等指標(biāo)。
提交測試結(jié)果：

使用測試集數(shù)據(jù)進(jìn)行推理，生成預(yù)測結(jié)果文件（如 llava_v1.5_7b/MMBench_TEST_EN.xlsx）。
登錄 MMBench 領(lǐng)先榜上傳預(yù)測結(jié)果文件。
領(lǐng)先榜將自動(dòng)計(jì)算并展示模型在各個(gè)能力維度上的性能表現(xiàn)。
在 MMBench 領(lǐng)先榜上提交測試結(jié)果，按照以下步驟操作：

MMBench的應(yīng)用場景

模型性能評估：MMBench 提供全面的多模態(tài)基準(zhǔn)測試平臺(tái)，能對視覺語言模型在不同任務(wù)和能力維度上的表現(xiàn)進(jìn)行細(xì)粒度評估，幫助研究者和開發(fā)者清晰了解模型的強(qiáng)項(xiàng)和弱項(xiàng)，為模型優(yōu)化提供方向。
學(xué)術(shù)研究支持：研究人員用 MMBench 數(shù)據(jù)集進(jìn)行新模型的開發(fā)和驗(yàn)證，推動(dòng)多模態(tài)技術(shù)的前沿研究。
工業(yè)應(yīng)用開發(fā)：在工業(yè)領(lǐng)域，企業(yè)評估和選擇適合其產(chǎn)品的多模態(tài)模型，確保所采用的模型在實(shí)際應(yīng)用場景中具備足夠的性能和穩(wěn)定性，提高產(chǎn)品的市場競爭力。
教育與培訓(xùn)：作為教學(xué)資源，幫助學(xué)生和研究人員更好地理解多模態(tài)模型的評估方法和應(yīng)用場景，基于實(shí)踐項(xiàng)目和課程練習(xí)提升對多模態(tài)技術(shù)的理解和應(yīng)用能力。
跨領(lǐng)域應(yīng)用：MMBench 的多模態(tài)數(shù)據(jù)集涵蓋多個(gè)領(lǐng)域，如文化、科學(xué)、醫(yī)療等，例如 CCBench（中國文化相關(guān)基準(zhǔn)測試）能評估模型在特定文化領(lǐng)域的表現(xiàn)，推動(dòng)文化研究和跨文化交流。

0XU.CN

[超站]友情鏈接：

四季很好，只要有你，文娛排行榜：https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全，洞悉企業(yè)級(jí)服務(wù)市場：https://www.ijiandao.com/

*文章為作者獨(dú)立觀點(diǎn)，不代表 0XUCN 立場

本文由美谷朱里發(fā)表，轉(zhuǎn)載此文章須經(jīng)作者同意，并請附上出處(0XUCN)及本頁鏈接。

原文鏈接 http://jjbxz.cn/article/intelnet/intelligent/62764.html

MMBench 上海人工智能實(shí)驗(yàn)室南洋理工大學(xué) 香港中文大學(xué) 新加坡國立大學(xué) 浙江大學(xué)

圖庫

公眾號(hào)

關(guān)注網(wǎng)絡(luò)尖刀微信公眾號(hào)
隨時(shí)掌握互聯(lián)網(wǎng)精彩

贊助鏈接

fastposter

processon

itrust

SSL

K2CMS

百度熱搜榜

排名熱點(diǎn) 搜索指數(shù)

1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904633
2 今年最強(qiáng)臺(tái)風(fēng)來襲 7808843
3 澳加英宣布承認(rèn)巴勒斯坦國 7713285
4 長春航空展這些“首次”不要錯(cuò)過 7616028
5 43歲二胎媽媽患阿爾茨海默病 7521510
6 iPhone 17橙色斜挎掛繩賣斷貨 7428535
7 老奶奶去世3年鄰居幫打掃門前落葉 7329280
8 三所“零近視”小學(xué)帶來的啟示 7239197
9 女兒發(fā)現(xiàn)父親500多萬遺產(chǎn)用于保健 7143995
10 英國航母從南?！傲锪恕?/a> 7047149

微信掃碼分享

離開
復(fù)制鏈接
返回頂部