
LLMEval3 由復(fù)旦大學(xué)NLP實驗室推出的大模型評測基準(zhǔn)
聲明:該文章由作者(梨渦遠(yuǎn)點)發(fā)表,轉(zhuǎn)載此文章須經(jīng)作者同意并請附上出處(0XUCN)及本頁鏈接。。
LLMEval是由復(fù)旦大學(xué)NLP實驗室推出的大模型評測基準(zhǔn),最新的LLMEval-3聚焦于專業(yè)知識能力評測,涵蓋哲學(xué)、經(jīng)濟學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)等教育部劃定的13個學(xué)科門類、50余個二級學(xué)科,共計約20W道標(biāo)準(zhǔn)生成式問答題目。
自2022年以來,隨著大模型技術(shù)的飛速發(fā)展,如何有效評估大模型的能力已成為一項關(guān)鍵的研究課題。為應(yīng)對這一科學(xué)挑戰(zhàn),復(fù)旦大學(xué)NLP實驗室啟動了LLMEval大模型評測系列研究項目,旨在系統(tǒng)研究和優(yōu)化大模型的評估方法,深入探索模型在不同場景下的表現(xiàn),并從可解釋性的角度分析評測結(jié)果。自項目啟動以來,LLMEval已累計收集了近百萬條評測數(shù)據(jù),為大模型的評估與優(yōu)化提供了寶貴的資源和實證分析。目前,LLMEval系列已順利完成了前三期項目:
LLMEval-1專注于大模型的生成能力評測。項目涵蓋了17個大類、453個問題,全面考察了大模型在事實性問答、閱讀理解、編程等多個領(lǐng)域的表現(xiàn)。評測指標(biāo)包括正確性、流暢性、信息量、邏輯性和無害性,評估方法多樣,如分項評測和GPT-4自動評測。
LLMEval-2在LLMEval-1的基礎(chǔ)上,進(jìn)一步聚焦于專業(yè)領(lǐng)域的評測。該階段針對用戶在日常學(xué)習(xí)和生活中遇到的專業(yè)問題,特別是本科生和研究生的學(xué)術(shù)需求,設(shè)計了更為專業(yè)化的評測題目。LLMEval-2旨在彌補通用評測在反映模型知識覆蓋率方面的不足,重點評估大模型在專業(yè)領(lǐng)域的實用性。
LLMEval-1和LLMEval-2的相關(guān)研究論文已被AAAI2024收錄,詳情請參閱?Zhang et al., 2024
LLMEval-3聚焦于專業(yè)知識能力評測,涵蓋哲學(xué)、經(jīng)濟學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)等教育部劃定的13個學(xué)科門類、50余個二級學(xué)科,共計約20W道標(biāo)準(zhǔn)生成式問答題目。后續(xù)我們將繼續(xù)收集題目將總題庫擴充至100W。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7903986
- 2 今年最強臺風(fēng)來襲 7808112
- 3 澳加英宣布承認(rèn)巴勒斯坦國 7711974
- 4 長春航空展這些“首次”不要錯過 7618628
- 5 43歲二胎媽媽患阿爾茨海默病 7522260
- 6 iPhone 17橙色斜挎掛繩賣斷貨 7423842
- 7 女兒發(fā)現(xiàn)父親500多萬遺產(chǎn)用于保健 7329814
- 8 一代人有一代人的月餅 7234260
- 9 劉強東“10年1元年薪”之約到期 7138430
- 10 山姆上架太二酸菜魚預(yù)制菜 7048565