黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標(biāo)簽
我們會為你匹配適合你的網(wǎng)址導(dǎo)航

    確認(rèn) 跳過

    跳過將刪除所有初始化信息

    “巢燧”大模型基準(zhǔn)測試發(fā)布國內(nèi)深度推理大模型評測報(bào)告

    智能 2025-06-30 16:02

    聲明:該文章來自(紅星新聞)版權(quán)由原作者所有,K2OS渲染引擎提供網(wǎng)頁加速服務(wù)。

    繼DeepSeek-R1開源發(fā)布之后,國內(nèi)多家企業(yè)陸續(xù)研發(fā)和上線了深度推理大模型?!俺察荨贝竽P突鶞?zhǔn)測試密切追蹤國內(nèi)深度推理大模型最新進(jìn)展,近期,紅星新聞聯(lián)合天津大學(xué)自然語言處理實(shí)驗(yàn)室,依托“燧觀”大模型智能測試平臺,開展“巢燧”大模型基準(zhǔn)綜合評測第三次評測,對國內(nèi)幾款主流深度推理大模型進(jìn)行了系統(tǒng)評測,覆蓋數(shù)學(xué)、多步推理、代碼三大維度。希望通過系統(tǒng)而全面的推理大模型評測,為中國AI發(fā)展提供關(guān)鍵數(shù)據(jù),實(shí)現(xiàn)AI智善和諧發(fā)展。

    本次報(bào)告涉及的模型包括DeepSeek-R1,Spark X1,Hunyuan-T1,GLM-Z1-Air,QwQ-32B-Preview,ERNIE-X1 Turbo(32K)六個(gè)國產(chǎn)深度推理大模型。因近期部分大模型進(jìn)行了版本更新或API調(diào)用問題,本次評測未覆蓋所有模型,后期將同步進(jìn)行下一次全面評測。
    采用多維度精選任務(wù)開展推理能力測評
    此次評測聚焦于多步推理、數(shù)學(xué)復(fù)雜推理、代碼推理三大推理維度,對深度推理大模型展開全面評測。
    (1)數(shù)學(xué)復(fù)雜推理任務(wù)
    該評測任務(wù)采用高考數(shù)學(xué)復(fù)雜推理數(shù)據(jù),評測數(shù)據(jù)來源于2024年1月至2024年5月的高考數(shù)學(xué)預(yù)測試卷以及模擬試卷,減少了數(shù)據(jù)污染的影響。該數(shù)據(jù)集具備充足的題目數(shù)量與豐富的內(nèi)容,評測所使用的4100題覆蓋7個(gè)難度等級和8種題目類型:基本初等函數(shù)與導(dǎo)數(shù)推理、三角函數(shù)與解三角形推理、平面解析幾何推理、數(shù)列推理、立體幾何與空間向量推理、計(jì)數(shù)原理推理、統(tǒng)計(jì)與概率推理、其他數(shù)學(xué)推理(涵蓋邏輯、集合、不等式、復(fù)數(shù))。該數(shù)據(jù)集一些難度較大的題目答案解析超過2000字符,具備測試模型復(fù)雜數(shù)學(xué)推理的能力。
    (2)多步推理任務(wù)(C2RBench)
    本任務(wù)來自中文復(fù)雜推理測試基準(zhǔn)C2RBench,該基準(zhǔn)旨在系統(tǒng)評估大模型在多步、多模態(tài)高級推理任務(wù)中的實(shí)際表現(xiàn)。C2RBench共包含1115道精心設(shè)計(jì)的中文任務(wù),涵蓋八個(gè)貼近真實(shí)推理需求的領(lǐng)域子集,各子集任務(wù)均以模擬真實(shí)問題為導(dǎo)向。該基準(zhǔn)采用層級難度分級設(shè)置,依據(jù)推理步驟數(shù)量劃分為三級任務(wù),平均每個(gè)任務(wù)涉及8.44個(gè)推理步驟,顯著高于現(xiàn)有基準(zhǔn)在認(rèn)知復(fù)雜度方面的設(shè)定。此次評測采用C2RBench兩個(gè)領(lǐng)域子集,即邏輯多步推理、通用知識多步推理。測試數(shù)據(jù)集最?的特點(diǎn)在于:每一個(gè)測試樣例都由較長的一系列推理操作組成。按照完成任務(wù)所需要的推理步數(shù),該數(shù)據(jù)集測試樣例又可分為三個(gè)難度級別:Level1(3-6步推理)、Level2(7-11步推理)、Level3(12步以上推理)。
    (3)程序設(shè)計(jì)代碼推理任務(wù)(ProBench)
    ProBench是一個(gè)用于評測大模型程序設(shè)計(jì)代碼推理能力的數(shù)據(jù)集,測試題目來源于Codeforces、洛谷(Luogu)和??途W(wǎng)(Nowcoder)三個(gè)主流編程競賽平臺。ProBench_v2版本收錄了比賽時(shí)間在2025年1月1日至2025年5月13日之間的最新競賽題目。為避免數(shù)據(jù)污染,所有題目均為該時(shí)間段內(nèi)的新題,題目描述包含中文和英文描述。此次評測采用收集的504道標(biāo)注有難度等級的題目,涵蓋了多種算法類型,包括基礎(chǔ)算法、字符串、數(shù)學(xué)、圖論、數(shù)據(jù)結(jié)構(gòu)、搜索和動態(tài)規(guī)劃等,難度等級劃分為簡單、中等和困難。大模型在處理簡單難度等級測試題時(shí)平均需要生成12K詞元,而回答中等及困難題目,需要平均生存22K詞元,顯示出該數(shù)據(jù)集在推理深度和計(jì)算負(fù)載方面的挑戰(zhàn)性。

    國內(nèi)深度推理大模型整體有顯著進(jìn)步

    基于巢燧基準(zhǔn)評測推理綜合測試評分結(jié)果,多款國內(nèi)深度推理大模型,如DeepSeekR1、訊飛星火X1、騰訊混元T1、智譜Z1,綜合分?jǐn)?shù)超過或接近60,反映出國內(nèi)深度推理大模型在最近幾個(gè)月取得了顯著進(jìn)展。

    從整體測評得分看,DeepSeek整體處于領(lǐng)先狀態(tài),訊飛星火X1,本次以少許優(yōu)勢超過了混元T1和智譜Z1,依次為本次測評的第二、三、四名。國內(nèi)模型之間能力競爭非常激烈。

    特別說明,本次評測中,DeepSeek-R1采用2025年5月28日發(fā)布版本,Hunyuan-T1采用2025年5月21日發(fā)布版本,Spark X1為2025年4月20日發(fā)布版本,GLM-Z1-Air為2025年4月15日發(fā)布版本, QwQ-32B-Preview為2024年11月28日發(fā)布版本,ERNIE-X1 Turbo(32K)為2025年4月25日發(fā)布版本。
    基于本次測評結(jié)果,可以看到以下趨勢和結(jié)論:
    (1)相比去年11月發(fā)布的QwQ-32B-Preview,今年發(fā)布的大部分深度推理大模型均大幅提升了數(shù)學(xué)推理能力,最好結(jié)果超過70%;排名前四的模型準(zhǔn)確率較為接近,說明當(dāng)前頭部深度推理大模型在數(shù)學(xué)推理能力上處于相近水平,競爭格局極為激烈。
    (2)在多步推理任務(wù)上,領(lǐng)先模型間差距縮小,競爭激烈,排名靠前的DeepSeek-R1、Spark X1、Hunyuan-T1準(zhǔn)確率接近,競爭日益白熱化。細(xì)微差距可能來源于對特定推理類別的針對性優(yōu)化,或者推理過程中的錯誤糾正機(jī)制不同。
    (3)在多步推理細(xì)分任務(wù)-邏輯多步推理任務(wù)上,國內(nèi)深度推理大模型表現(xiàn)亮眼。模型在中低難度邏輯推理上的處理能力較強(qiáng),隨著推理難度提升,準(zhǔn)確率有所下降,特別是Level3準(zhǔn)確率下降較厲害,體現(xiàn)出所需推理步數(shù)加長帶來的挑戰(zhàn)。
    (4)相比于邏輯多步推理,多步推理細(xì)分任務(wù)通用知識多步推理仍面臨顯著瓶頸,整體準(zhǔn)確率低于邏輯推理,且不同模型間差異明顯。各深度推理大模型準(zhǔn)確率呈現(xiàn)較為明顯的階梯形分布,前三名模型準(zhǔn)確率均集中在60%~71%區(qū)間,體現(xiàn)頭部模型的整體競爭力和技術(shù)成熟度。
    (5)在程序設(shè)計(jì)代碼推理方面,DeepSeek-R1顯著領(lǐng)先其他深度推理大模型,但所有模型的得分均較低,表明在程序設(shè)計(jì)代碼推理任務(wù)上仍然有很大的提升空間。
    結(jié)語
    2025年上半年,國內(nèi)深度推理大模型在多項(xiàng)關(guān)鍵任務(wù)中展現(xiàn)出顯著進(jìn)展,整體技術(shù)水平穩(wěn)步提升。在多步邏輯推理任務(wù)中,整體準(zhǔn)確率大幅提升,且領(lǐng)先模型之間的差距不斷縮??;在高考數(shù)學(xué)復(fù)雜推理任務(wù)中,頭部模型相較去年實(shí)現(xiàn)躍進(jìn)式提升,表現(xiàn)出深度推理能力的顯著增強(qiáng);而在程序設(shè)計(jì)代碼推理這一難度更高的推理任務(wù)中,不同模型之間的技術(shù)分層更加明顯。相信國內(nèi)深度推理大模型在接下來的時(shí)間里,將會進(jìn)一步快速迭代,期待在下一次的測評中看到國產(chǎn)深度推理模型更加優(yōu)秀的表現(xiàn)。
    紅星新聞記者 李偉銘

    關(guān)注我們

    [超站]友情鏈接:

    四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
    關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

    圖庫