LLMEval3 由復(fù)旦大學(xué)NLP實驗室推出的大模型評測基準(zhǔn)

智能 2025-08-19 00:37

聲明：該文章由作者（梨渦遠(yuǎn)點）發(fā)表，轉(zhuǎn)載此文章須經(jīng)作者同意并請附上出處(0XUCN)及本頁鏈接。。

LLMEval是由復(fù)旦大學(xué)NLP實驗室推出的大模型評測基準(zhǔn)，最新的LLMEval-3聚焦于專業(yè)知識能力評測，涵蓋哲學(xué)、經(jīng)濟學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)等教育部劃定的13個學(xué)科門類、50余個二級學(xué)科，共計約20W道標(biāo)準(zhǔn)生成式問答題目。

自2022年以來，隨著大模型技術(shù)的飛速發(fā)展，如何有效評估大模型的能力已成為一項關(guān)鍵的研究課題。為應(yīng)對這一科學(xué)挑戰(zhàn)，復(fù)旦大學(xué)NLP實驗室啟動了LLMEval大模型評測系列研究項目，旨在系統(tǒng)研究和優(yōu)化大模型的評估方法，深入探索模型在不同場景下的表現(xiàn)，并從可解釋性的角度分析評測結(jié)果。自項目啟動以來，LLMEval已累計收集了近百萬條評測數(shù)據(jù)，為大模型的評估與優(yōu)化提供了寶貴的資源和實證分析。目前，LLMEval系列已順利完成了前三期項目：

LLMEval-1專注于大模型的生成能力評測。項目涵蓋了17個大類、453個問題，全面考察了大模型在事實性問答、閱讀理解、編程等多個領(lǐng)域的表現(xiàn)。評測指標(biāo)包括正確性、流暢性、信息量、邏輯性和無害性，評估方法多樣，如分項評測和GPT-4自動評測。

LLMEval-2在LLMEval-1的基礎(chǔ)上，進(jìn)一步聚焦于專業(yè)領(lǐng)域的評測。該階段針對用戶在日常學(xué)習(xí)和生活中遇到的專業(yè)問題，特別是本科生和研究生的學(xué)術(shù)需求，設(shè)計了更為專業(yè)化的評測題目。LLMEval-2旨在彌補通用評測在反映模型知識覆蓋率方面的不足，重點評估大模型在專業(yè)領(lǐng)域的實用性。

LLMEval-1和LLMEval-2的相關(guān)研究論文已被AAAI2024收錄，詳情請參閱?Zhang et al., 2024

LLMEval-3聚焦于專業(yè)知識能力評測，涵蓋哲學(xué)、經(jīng)濟學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)等教育部劃定的13個學(xué)科門類、50余個二級學(xué)科，共計約20W道標(biāo)準(zhǔn)生成式問答題目。后續(xù)我們將繼續(xù)收集題目將總題庫擴充至100W。

關(guān)注我們