黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標(biāo)簽
我們會(huì)為你匹配適合你的網(wǎng)址導(dǎo)航

    確認(rèn) 跳過

    跳過將刪除所有初始化信息

    您的位置:0XUCN > 資訊 > 智能
    新聞分類

    “巢燧”大模型基準(zhǔn)測(cè)試發(fā)布國內(nèi)深度推理大模型評(píng)測(cè)報(bào)告

    智能 PRO 稿源:紅星新聞 2025-06-30 16:02

    繼DeepSeek-R1開源發(fā)布之后,國內(nèi)多家企業(yè)陸續(xù)研發(fā)和上線了深度推理大模型?!俺察荨贝竽P突鶞?zhǔn)測(cè)試密切追蹤國內(nèi)深度推理大模型最新進(jìn)展,近期,紅星新聞聯(lián)合天津大學(xué)自然語言處理實(shí)驗(yàn)室,依托“燧觀”大模型智能測(cè)試平臺(tái),開展“巢燧”大模型基準(zhǔn)綜合評(píng)測(cè)第三次評(píng)測(cè),對(duì)國內(nèi)幾款主流深度推理大模型進(jìn)行了系統(tǒng)評(píng)測(cè),覆蓋數(shù)學(xué)、多步推理、代碼三大維度。希望通過系統(tǒng)而全面的推理大模型評(píng)測(cè),為中國AI發(fā)展提供關(guān)鍵數(shù)據(jù),實(shí)現(xiàn)AI智善和諧發(fā)展。

    本次報(bào)告涉及的模型包括DeepSeek-R1,Spark X1,Hunyuan-T1,GLM-Z1-Air,QwQ-32B-Preview,ERNIE-X1 Turbo(32K)六個(gè)國產(chǎn)深度推理大模型。因近期部分大模型進(jìn)行了版本更新或API調(diào)用問題,本次評(píng)測(cè)未覆蓋所有模型,后期將同步進(jìn)行下一次全面評(píng)測(cè)。
    采用多維度精選任務(wù)開展推理能力測(cè)評(píng)
    此次評(píng)測(cè)聚焦于多步推理、數(shù)學(xué)復(fù)雜推理、代碼推理三大推理維度,對(duì)深度推理大模型展開全面評(píng)測(cè)。
    (1)數(shù)學(xué)復(fù)雜推理任務(wù)
    該評(píng)測(cè)任務(wù)采用高考數(shù)學(xué)復(fù)雜推理數(shù)據(jù),評(píng)測(cè)數(shù)據(jù)來源于2024年1月至2024年5月的高考數(shù)學(xué)預(yù)測(cè)試卷以及模擬試卷,減少了數(shù)據(jù)污染的影響。該數(shù)據(jù)集具備充足的題目數(shù)量與豐富的內(nèi)容,評(píng)測(cè)所使用的4100題覆蓋7個(gè)難度等級(jí)和8種題目類型:基本初等函數(shù)與導(dǎo)數(shù)推理、三角函數(shù)與解三角形推理、平面解析幾何推理、數(shù)列推理、立體幾何與空間向量推理、計(jì)數(shù)原理推理、統(tǒng)計(jì)與概率推理、其他數(shù)學(xué)推理(涵蓋邏輯、集合、不等式、復(fù)數(shù))。該數(shù)據(jù)集一些難度較大的題目答案解析超過2000字符,具備測(cè)試模型復(fù)雜數(shù)學(xué)推理的能力。
    (2)多步推理任務(wù)(C2RBench)
    本任務(wù)來自中文復(fù)雜推理測(cè)試基準(zhǔn)C2RBench,該基準(zhǔn)旨在系統(tǒng)評(píng)估大模型在多步、多模態(tài)高級(jí)推理任務(wù)中的實(shí)際表現(xiàn)。C2RBench共包含1115道精心設(shè)計(jì)的中文任務(wù),涵蓋八個(gè)貼近真實(shí)推理需求的領(lǐng)域子集,各子集任務(wù)均以模擬真實(shí)問題為導(dǎo)向。該基準(zhǔn)采用層級(jí)難度分級(jí)設(shè)置,依據(jù)推理步驟數(shù)量劃分為三級(jí)任務(wù),平均每個(gè)任務(wù)涉及8.44個(gè)推理步驟,顯著高于現(xiàn)有基準(zhǔn)在認(rèn)知復(fù)雜度方面的設(shè)定。此次評(píng)測(cè)采用C2RBench兩個(gè)領(lǐng)域子集,即邏輯多步推理、通用知識(shí)多步推理。測(cè)試數(shù)據(jù)集最?的特點(diǎn)在于:每一個(gè)測(cè)試樣例都由較長(zhǎng)的一系列推理操作組成。按照完成任務(wù)所需要的推理步數(shù),該數(shù)據(jù)集測(cè)試樣例又可分為三個(gè)難度級(jí)別:Level1(3-6步推理)、Level2(7-11步推理)、Level3(12步以上推理)。
    (3)程序設(shè)計(jì)代碼推理任務(wù)(ProBench)
    ProBench是一個(gè)用于評(píng)測(cè)大模型程序設(shè)計(jì)代碼推理能力的數(shù)據(jù)集,測(cè)試題目來源于Codeforces、洛谷(Luogu)和??途W(wǎng)(Nowcoder)三個(gè)主流編程競(jìng)賽平臺(tái)。ProBench_v2版本收錄了比賽時(shí)間在2025年1月1日至2025年5月13日之間的最新競(jìng)賽題目。為避免數(shù)據(jù)污染,所有題目均為該時(shí)間段內(nèi)的新題,題目描述包含中文和英文描述。此次評(píng)測(cè)采用收集的504道標(biāo)注有難度等級(jí)的題目,涵蓋了多種算法類型,包括基礎(chǔ)算法、字符串、數(shù)學(xué)、圖論、數(shù)據(jù)結(jié)構(gòu)、搜索和動(dòng)態(tài)規(guī)劃等,難度等級(jí)劃分為簡(jiǎn)單、中等和困難。大模型在處理簡(jiǎn)單難度等級(jí)測(cè)試題時(shí)平均需要生成12K詞元,而回答中等及困難題目,需要平均生存22K詞元,顯示出該數(shù)據(jù)集在推理深度和計(jì)算負(fù)載方面的挑戰(zhàn)性。

    國內(nèi)深度推理大模型整體有顯著進(jìn)步

    基于巢燧基準(zhǔn)評(píng)測(cè)推理綜合測(cè)試評(píng)分結(jié)果,多款國內(nèi)深度推理大模型,如DeepSeekR1、訊飛星火X1、騰訊混元T1、智譜Z1,綜合分?jǐn)?shù)超過或接近60,反映出國內(nèi)深度推理大模型在最近幾個(gè)月取得了顯著進(jìn)展。

    從整體測(cè)評(píng)得分看,DeepSeek整體處于領(lǐng)先狀態(tài),訊飛星火X1,本次以少許優(yōu)勢(shì)超過了混元T1和智譜Z1,依次為本次測(cè)評(píng)的第二、三、四名。國內(nèi)模型之間能力競(jìng)爭(zhēng)非常激烈。

    特別說明,本次評(píng)測(cè)中,DeepSeek-R1采用2025年5月28日發(fā)布版本,Hunyuan-T1采用2025年5月21日發(fā)布版本,Spark X1為2025年4月20日發(fā)布版本,GLM-Z1-Air為2025年4月15日發(fā)布版本, QwQ-32B-Preview為2024年11月28日發(fā)布版本,ERNIE-X1 Turbo(32K)為2025年4月25日發(fā)布版本。
    基于本次測(cè)評(píng)結(jié)果,可以看到以下趨勢(shì)和結(jié)論:
    (1)相比去年11月發(fā)布的QwQ-32B-Preview,今年發(fā)布的大部分深度推理大模型均大幅提升了數(shù)學(xué)推理能力,最好結(jié)果超過70%;排名前四的模型準(zhǔn)確率較為接近,說明當(dāng)前頭部深度推理大模型在數(shù)學(xué)推理能力上處于相近水平,競(jìng)爭(zhēng)格局極為激烈。
    (2)在多步推理任務(wù)上,領(lǐng)先模型間差距縮小,競(jìng)爭(zhēng)激烈,排名靠前的DeepSeek-R1、Spark X1、Hunyuan-T1準(zhǔn)確率接近,競(jìng)爭(zhēng)日益白熱化。細(xì)微差距可能來源于對(duì)特定推理類別的針對(duì)性優(yōu)化,或者推理過程中的錯(cuò)誤糾正機(jī)制不同。
    (3)在多步推理細(xì)分任務(wù)-邏輯多步推理任務(wù)上,國內(nèi)深度推理大模型表現(xiàn)亮眼。模型在中低難度邏輯推理上的處理能力較強(qiáng),隨著推理難度提升,準(zhǔn)確率有所下降,特別是Level3準(zhǔn)確率下降較厲害,體現(xiàn)出所需推理步數(shù)加長(zhǎng)帶來的挑戰(zhàn)。
    (4)相比于邏輯多步推理,多步推理細(xì)分任務(wù)通用知識(shí)多步推理仍面臨顯著瓶頸,整體準(zhǔn)確率低于邏輯推理,且不同模型間差異明顯。各深度推理大模型準(zhǔn)確率呈現(xiàn)較為明顯的階梯形分布,前三名模型準(zhǔn)確率均集中在60%~71%區(qū)間,體現(xiàn)頭部模型的整體競(jìng)爭(zhēng)力和技術(shù)成熟度。
    (5)在程序設(shè)計(jì)代碼推理方面,DeepSeek-R1顯著領(lǐng)先其他深度推理大模型,但所有模型的得分均較低,表明在程序設(shè)計(jì)代碼推理任務(wù)上仍然有很大的提升空間。
    結(jié)語
    2025年上半年,國內(nèi)深度推理大模型在多項(xiàng)關(guān)鍵任務(wù)中展現(xiàn)出顯著進(jìn)展,整體技術(shù)水平穩(wěn)步提升。在多步邏輯推理任務(wù)中,整體準(zhǔn)確率大幅提升,且領(lǐng)先模型之間的差距不斷縮??;在高考數(shù)學(xué)復(fù)雜推理任務(wù)中,頭部模型相較去年實(shí)現(xiàn)躍進(jìn)式提升,表現(xiàn)出深度推理能力的顯著增強(qiáng);而在程序設(shè)計(jì)代碼推理這一難度更高的推理任務(wù)中,不同模型之間的技術(shù)分層更加明顯。相信國內(nèi)深度推理大模型在接下來的時(shí)間里,將會(huì)進(jìn)一步快速迭代,期待在下一次的測(cè)評(píng)中看到國產(chǎn)深度推理模型更加優(yōu)秀的表現(xiàn)。
    紅星新聞?dòng)浾?李偉銘

    0XU.CN

    [超站]友情鏈接:

    四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
    關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

    圖庫
    公眾號(hào) 關(guān)注網(wǎng)絡(luò)尖刀微信公眾號(hào)
    隨時(shí)掌握互聯(lián)網(wǎng)精彩
    贊助鏈接