
LLMEval3 由復(fù)旦大學(xué)NLP實驗室推出的大模型評測基準(zhǔn)
LLMEval是由復(fù)旦大學(xué)NLP實驗室推出的大模型評測基準(zhǔn),最新的LLMEval-3聚焦于專業(yè)知識能力評測,涵蓋哲學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)等教育部劃定的13個學(xué)科門類、50余個二級學(xué)科,共計約20W道標(biāo)準(zhǔn)生成式問答題目。
自2022年以來,隨著大模型技術(shù)的飛速發(fā)展,如何有效評估大模型的能力已成為一項關(guān)鍵的研究課題。為應(yīng)對這一科學(xué)挑戰(zhàn),復(fù)旦大學(xué)NLP實驗室啟動了LLMEval大模型評測系列研究項目,旨在系統(tǒng)研究和優(yōu)化大模型的評估方法,深入探索模型在不同場景下的表現(xiàn),并從可解釋性的角度分析評測結(jié)果。自項目啟動以來,LLMEval已累計收集了近百萬條評測數(shù)據(jù),為大模型的評估與優(yōu)化提供了寶貴的資源和實證分析。目前,LLMEval系列已順利完成了前三期項目:
LLMEval-1專注于大模型的生成能力評測。項目涵蓋了17個大類、453個問題,全面考察了大模型在事實性問答、閱讀理解、編程等多個領(lǐng)域的表現(xiàn)。評測指標(biāo)包括正確性、流暢性、信息量、邏輯性和無害性,評估方法多樣,如分項評測和GPT-4自動評測。
LLMEval-2在LLMEval-1的基礎(chǔ)上,進(jìn)一步聚焦于專業(yè)領(lǐng)域的評測。該階段針對用戶在日常學(xué)習(xí)和生活中遇到的專業(yè)問題,特別是本科生和研究生的學(xué)術(shù)需求,設(shè)計了更為專業(yè)化的評測題目。LLMEval-2旨在彌補通用評測在反映模型知識覆蓋率方面的不足,重點評估大模型在專業(yè)領(lǐng)域的實用性。
LLMEval-1和LLMEval-2的相關(guān)研究論文已被AAAI2024收錄,詳情請參閱?Zhang et al., 2024
LLMEval-3聚焦于專業(yè)知識能力評測,涵蓋哲學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)等教育部劃定的13個學(xué)科門類、50余個二級學(xué)科,共計約20W道標(biāo)準(zhǔn)生成式問答題目。后續(xù)我們將繼續(xù)收集題目將總題庫擴充至100W。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

隨時掌握互聯(lián)網(wǎng)精彩
- 1 中美完全可以相互成就、共同繁榮 7904034
- 2 加沙已變“死城” 7809358
- 3 暴雨中臺下只剩1名觀眾 演員仍開演 7714379
- 4 近距離感受“大國重器” 7618832
- 5 美國大豆中國訂單量仍為零 7519722
- 6 試管嬰兒患腎病 父母要求醫(yī)院擔(dān)全責(zé) 7424149
- 7 女子婚后起訴父母返還18萬彩禮 7329461
- 8 委內(nèi)瑞拉:美國“不宣而戰(zhàn)” 7234348
- 9 金價飆升 有非法淘金人井下生活兩年 7135491
- 10 網(wǎng)紅“戶晨風(fēng)”多平臺賬號被封 7045475