CMMLU 一個(gè)綜合性的大模型中文評(píng)估基準(zhǔn)

智能 2025-08-19 00:39

聲明：該文章由作者（崽下毛毛雨）發(fā)表，轉(zhuǎn)載此文章須經(jīng)作者同意并請(qǐng)附上出處(0XUCN)及本頁鏈接。。

CMMLU是綜合性的中文評(píng)估基準(zhǔn)，專門用在評(píng)估語言模型在中文語境下的知識(shí)和推理能力，涵蓋從基礎(chǔ)學(xué)科到高級(jí)專業(yè)水平的67個(gè)主題。包括需要計(jì)算和推理的自然科學(xué)，需要知識(shí)的人文科學(xué)和社會(huì)科學(xué)，及需要生活常識(shí)的中國駕駛規(guī)則等。CMMLU中的許多任務(wù)具有中國特定的答案，可能在其他地區(qū)或語言中并不普遍適用。CMMLU提供豐富的測(cè)試數(shù)據(jù)和排行榜，支持多種評(píng)估方式，如five-shot和zero-shot測(cè)試，是衡量中文語言模型性能的重要工具。

CMMLU的主要功能

排行榜：展示不同語言模型在five-shot和zero-shot測(cè)試下的表現(xiàn)，幫助比較模型性能。
數(shù)據(jù)集：提供開發(fā)和測(cè)試數(shù)據(jù)，支持快速使用和評(píng)估。
預(yù)處理代碼：提供提示生成方法，方便模型訓(xùn)練和測(cè)試。
評(píng)估工具：支持多種評(píng)估方式，便于研究者和開發(fā)者測(cè)試模型能力。

如何使用CMMLU

獲取數(shù)據(jù)集：

從GitHub下載：訪問 CMMLU GitHub頁面：https://github.com/haonan-li/CMMLU/，在data目錄中找到開發(fā)和測(cè)試數(shù)據(jù)集。
通過Hugging Face獲?。涸L問Hugging Face平臺(tái)：https://huggingface.co/datasets/haonan-li/cmmlu，直接加載CMMLU數(shù)據(jù)集。

準(zhǔn)備測(cè)試環(huán)境：

安裝依賴：確保安裝了必要的Python庫，如transformers、datasets等。
克隆代碼庫：克隆CMMLU的GitHub倉庫，獲取測(cè)試代碼和預(yù)處理工具。

git clone https://github.com/haonan-li/CMMLU.git

cd CMMLU

預(yù)處理數(shù)據(jù)：在src/mp_utils目錄中，使用提供的腳本對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，生成適合模型輸入的格式。

python src/mp_utils/preprocess.py

運(yùn)行評(píng)估代碼

選擇模型：根據(jù)需要評(píng)估的語言模型，加載模型和tokenizer。
運(yùn)行測(cè)試腳本：在script目錄中，運(yùn)行測(cè)試腳本，評(píng)估模型在不同任務(wù)上的表現(xiàn)。

python script/evaluate.py --model <model_name> --data_path <data_path>

提交測(cè)試結(jié)果：

開源模型：直接提交拉取請(qǐng)求（PR），更新測(cè)試代碼和結(jié)果。
未開放模型：將測(cè)試代碼和結(jié)果發(fā)送到指定郵箱（如haonan.li@librai.tech），等待驗(yàn)證后更新到排行榜。

分析結(jié)果：在GitHub頁面的排行榜部分，查看模型在不同任務(wù)上的表現(xiàn)，分析模型的優(yōu)缺點(diǎn)。

CMMLU的應(yīng)用場(chǎng)景

語言模型性能評(píng)估：用在測(cè)試和比較語言模型在中文多任務(wù)場(chǎng)景下的知識(shí)和推理能力，幫助優(yōu)化模型架構(gòu)。
教育領(lǐng)域的智能輔導(dǎo)：開發(fā)智能輔導(dǎo)系統(tǒng)，為學(xué)生提供多學(xué)科的練習(xí)和學(xué)習(xí)建議，提升學(xué)習(xí)效果。
智能客服優(yōu)化：評(píng)估模型在特定領(lǐng)域的知識(shí)理解能力，優(yōu)化智能客服系統(tǒng)，提高客戶服務(wù)質(zhì)量。
文化知識(shí)傳播：用CMMLU的數(shù)據(jù)集開發(fā)文化問答系統(tǒng)，傳播中國文化知識(shí)，促進(jìn)文化傳承。
醫(yī)療健康知識(shí)評(píng)估：評(píng)估語言模型在醫(yī)學(xué)領(lǐng)域的知識(shí)理解能力，輔助開發(fā)醫(yī)療咨詢工具，提供健康建議。

關(guān)注我們