黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標(biāo)簽
我們會為你匹配適合你的網(wǎng)址導(dǎo)航

    確認(rèn) 跳過

    跳過將刪除所有初始化信息

    您的位置:0XUCN > 資訊 > 智能
    新聞分類

    LLMEval3 由復(fù)旦大學(xué)NLP實驗室推出的大模型評測基準(zhǔn)

    智能 PRO 作者:梨渦遠(yuǎn)點 2025-08-19 00:37

    LLMEval是由復(fù)旦大學(xué)NLP實驗室推出的大模型評測基準(zhǔn),最新的LLMEval-3聚焦于專業(yè)知識能力評測,涵蓋哲學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)等教育部劃定的13個學(xué)科門類、50余個二級學(xué)科,共計約20W道標(biāo)準(zhǔn)生成式問答題目。

    自2022年以來,隨著大模型技術(shù)的飛速發(fā)展,如何有效評估大模型的能力已成為一項關(guān)鍵的研究課題。為應(yīng)對這一科學(xué)挑戰(zhàn),復(fù)旦大學(xué)NLP實驗室啟動了LLMEval大模型評測系列研究項目,旨在系統(tǒng)研究和優(yōu)化大模型的評估方法,深入探索模型在不同場景下的表現(xiàn),并從可解釋性的角度分析評測結(jié)果。自項目啟動以來,LLMEval已累計收集了近百萬條評測數(shù)據(jù),為大模型的評估與優(yōu)化提供了寶貴的資源和實證分析。目前,LLMEval系列已順利完成了前三期項目:

    LLMEval-1專注于大模型的生成能力評測。項目涵蓋了17個大類、453個問題,全面考察了大模型在事實性問答、閱讀理解、編程等多個領(lǐng)域的表現(xiàn)。評測指標(biāo)包括正確性、流暢性、信息量、邏輯性和無害性,評估方法多樣,如分項評測和GPT-4自動評測。

    LLMEval-2在LLMEval-1的基礎(chǔ)上,進(jìn)一步聚焦于專業(yè)領(lǐng)域的評測。該階段針對用戶在日常學(xué)習(xí)和生活中遇到的專業(yè)問題,特別是本科生和研究生的學(xué)術(shù)需求,設(shè)計了更為專業(yè)化的評測題目。LLMEval-2旨在彌補通用評測在反映模型知識覆蓋率方面的不足,重點評估大模型在專業(yè)領(lǐng)域的實用性。

    LLMEval-1和LLMEval-2的相關(guān)研究論文已被AAAI2024收錄,詳情請參閱?Zhang et al., 2024

    LLMEval-3聚焦于專業(yè)知識能力評測,涵蓋哲學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)等教育部劃定的13個學(xué)科門類、50余個二級學(xué)科,共計約20W道標(biāo)準(zhǔn)生成式問答題目。后續(xù)我們將繼續(xù)收集題目將總題庫擴充至100W。


    0XU.CN

    [超站]友情鏈接:

    四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
    關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

    圖庫
    公眾號 關(guān)注網(wǎng)絡(luò)尖刀微信公眾號
    隨時掌握互聯(lián)網(wǎng)精彩
    贊助鏈接