“巢燧”大模型基準(zhǔn)測試發(fā)布國內(nèi)深度推理大模型評測報(bào)告

智能 2025-06-30 16:02

聲明：該文章來自（紅星新聞）版權(quán)由原作者所有，K2OS渲染引擎提供網(wǎng)頁加速服務(wù)。

繼DeepSeek-R1開源發(fā)布之后，國內(nèi)多家企業(yè)陸續(xù)研發(fā)和上線了深度推理大模型?！俺察荨贝竽Ｐ突鶞?zhǔn)測試密切追蹤國內(nèi)深度推理大模型最新進(jìn)展，近期，紅星新聞聯(lián)合天津大學(xué)自然語言處理實(shí)驗(yàn)室，依托“燧觀”大模型智能測試平臺，開展“巢燧”大模型基準(zhǔn)綜合評測第三次評測，對國內(nèi)幾款主流深度推理大模型進(jìn)行了系統(tǒng)評測，覆蓋數(shù)學(xué)、多步推理、代碼三大維度。希望通過系統(tǒng)而全面的推理大模型評測，為中國AI發(fā)展提供關(guān)鍵數(shù)據(jù)，實(shí)現(xiàn)AI智善和諧發(fā)展。

本次報(bào)告涉及的模型包括DeepSeek-R1，Spark X1，Hunyuan-T1，GLM-Z1-Air，QwQ-32B-Preview，ERNIE-X1 Turbo（32K）六個(gè)國產(chǎn)深度推理大模型。因近期部分大模型進(jìn)行了版本更新或API調(diào)用問題，本次評測未覆蓋所有模型，后期將同步進(jìn)行下一次全面評測。

采用多維度精選任務(wù)開展推理能力測評

此次評測聚焦于多步推理、數(shù)學(xué)復(fù)雜推理、代碼推理三大推理維度，對深度推理大模型展開全面評測。

（1）數(shù)學(xué)復(fù)雜推理任務(wù)

該評測任務(wù)采用高考數(shù)學(xué)復(fù)雜推理數(shù)據(jù)，評測數(shù)據(jù)來源于2024年1月至2024年5月的高考數(shù)學(xué)預(yù)測試卷以及模擬試卷，減少了數(shù)據(jù)污染的影響。該數(shù)據(jù)集具備充足的題目數(shù)量與豐富的內(nèi)容，評測所使用的4100題覆蓋7個(gè)難度等級和8種題目類型：基本初等函數(shù)與導(dǎo)數(shù)推理、三角函數(shù)與解三角形推理、平面解析幾何推理、數(shù)列推理、立體幾何與空間向量推理、計(jì)數(shù)原理推理、統(tǒng)計(jì)與概率推理、其他數(shù)學(xué)推理（涵蓋邏輯、集合、不等式、復(fù)數(shù)）。該數(shù)據(jù)集一些難度較大的題目答案解析超過2000字符，具備測試模型復(fù)雜數(shù)學(xué)推理的能力。

（2）多步推理任務(wù)（C2RBench）

本任務(wù)來自中文復(fù)雜推理測試基準(zhǔn)C2RBench，該基準(zhǔn)旨在系統(tǒng)評估大模型在多步、多模態(tài)高級推理任務(wù)中的實(shí)際表現(xiàn)。C2RBench共包含1115道精心設(shè)計(jì)的中文任務(wù)，涵蓋八個(gè)貼近真實(shí)推理需求的領(lǐng)域子集，各子集任務(wù)均以模擬真實(shí)問題為導(dǎo)向。該基準(zhǔn)采用層級難度分級設(shè)置，依據(jù)推理步驟數(shù)量劃分為三級任務(wù)，平均每個(gè)任務(wù)涉及8.44個(gè)推理步驟，顯著高于現(xiàn)有基準(zhǔn)在認(rèn)知復(fù)雜度方面的設(shè)定。此次評測采用C2RBench兩個(gè)領(lǐng)域子集，即邏輯多步推理、通用知識多步推理。測試數(shù)據(jù)集最?的特點(diǎn)在于：每一個(gè)測試樣例都由較長的一系列推理操作組成。按照完成任務(wù)所需要的推理步數(shù)，該數(shù)據(jù)集測試樣例又可分為三個(gè)難度級別：Level1（3-6步推理）、Level2（7-11步推理）、Level3（12步以上推理）。

（3）程序設(shè)計(jì)代碼推理任務(wù)（ProBench）

ProBench是一個(gè)用于評測大模型程序設(shè)計(jì)代碼推理能力的數(shù)據(jù)集，測試題目來源于Codeforces、洛谷（Luogu）和?？途W(wǎng)（Nowcoder）三個(gè)主流編程競賽平臺。ProBench_v2版本收錄了比賽時(shí)間在2025年1月1日至2025年5月13日之間的最新競賽題目。為避免數(shù)據(jù)污染，所有題目均為該時(shí)間段內(nèi)的新題，題目描述包含中文和英文描述。此次評測采用收集的504道標(biāo)注有難度等級的題目，涵蓋了多種算法類型，包括基礎(chǔ)算法、字符串、數(shù)學(xué)、圖論、數(shù)據(jù)結(jié)構(gòu)、搜索和動態(tài)規(guī)劃等，難度等級劃分為簡單、中等和困難。大模型在處理簡單難度等級測試題時(shí)平均需要生成12K詞元，而回答中等及困難題目，需要平均生存22K詞元，顯示出該數(shù)據(jù)集在推理深度和計(jì)算負(fù)載方面的挑戰(zhàn)性。

國內(nèi)深度推理大模型整體有顯著進(jìn)步

基于巢燧基準(zhǔn)評測推理綜合測試評分結(jié)果，多款國內(nèi)深度推理大模型，如DeepSeekR1、訊飛星火X1、騰訊混元T1、智譜Z1，綜合分?jǐn)?shù)超過或接近60，反映出國內(nèi)深度推理大模型在最近幾個(gè)月取得了顯著進(jìn)展。

從整體測評得分看，DeepSeek整體處于領(lǐng)先狀態(tài)，訊飛星火X1，本次以少許優(yōu)勢超過了混元T1和智譜Z1，依次為本次測評的第二、三、四名。國內(nèi)模型之間能力競爭非常激烈。

特別說明，本次評測中，DeepSeek-R1采用2025年5月28日發(fā)布版本，Hunyuan-T1采用2025年5月21日發(fā)布版本，Spark X1為2025年4月20日發(fā)布版本，GLM-Z1-Air為2025年4月15日發(fā)布版本， QwQ-32B-Preview為2024年11月28日發(fā)布版本，ERNIE-X1 Turbo（32K）為2025年4月25日發(fā)布版本。

基于本次測評結(jié)果，可以看到以下趨勢和結(jié)論：

（1）相比去年11月發(fā)布的QwQ-32B-Preview，今年發(fā)布的大部分深度推理大模型均大幅提升了數(shù)學(xué)推理能力，最好結(jié)果超過70%；排名前四的模型準(zhǔn)確率較為接近，說明當(dāng)前頭部深度推理大模型在數(shù)學(xué)推理能力上處于相近水平，競爭格局極為激烈。

（2）在多步推理任務(wù)上，領(lǐng)先模型間差距縮小，競爭激烈，排名靠前的DeepSeek-R1、Spark X1、Hunyuan-T1準(zhǔn)確率接近，競爭日益白熱化。細(xì)微差距可能來源于對特定推理類別的針對性優(yōu)化，或者推理過程中的錯誤糾正機(jī)制不同。

（3）在多步推理細(xì)分任務(wù)-邏輯多步推理任務(wù)上，國內(nèi)深度推理大模型表現(xiàn)亮眼。模型在中低難度邏輯推理上的處理能力較強(qiáng)，隨著推理難度提升，準(zhǔn)確率有所下降，特別是Level3準(zhǔn)確率下降較厲害，體現(xiàn)出所需推理步數(shù)加長帶來的挑戰(zhàn)。

（4）相比于邏輯多步推理，多步推理細(xì)分任務(wù)通用知識多步推理仍面臨顯著瓶頸，整體準(zhǔn)確率低于邏輯推理，且不同模型間差異明顯。各深度推理大模型準(zhǔn)確率呈現(xiàn)較為明顯的階梯形分布，前三名模型準(zhǔn)確率均集中在60%～71%區(qū)間，體現(xiàn)頭部模型的整體競爭力和技術(shù)成熟度。

（5）在程序設(shè)計(jì)代碼推理方面，DeepSeek-R1顯著領(lǐng)先其他深度推理大模型，但所有模型的得分均較低，表明在程序設(shè)計(jì)代碼推理任務(wù)上仍然有很大的提升空間。

結(jié)語

2025年上半年，國內(nèi)深度推理大模型在多項(xiàng)關(guān)鍵任務(wù)中展現(xiàn)出顯著進(jìn)展，整體技術(shù)水平穩(wěn)步提升。在多步邏輯推理任務(wù)中，整體準(zhǔn)確率大幅提升，且領(lǐng)先模型之間的差距不斷縮??；在高考數(shù)學(xué)復(fù)雜推理任務(wù)中，頭部模型相較去年實(shí)現(xiàn)躍進(jìn)式提升，表現(xiàn)出深度推理能力的顯著增強(qiáng)；而在程序設(shè)計(jì)代碼推理這一難度更高的推理任務(wù)中，不同模型之間的技術(shù)分層更加明顯。相信國內(nèi)深度推理大模型在接下來的時(shí)間里，將會進(jìn)一步快速迭代，期待在下一次的測評中看到國產(chǎn)深度推理模型更加優(yōu)秀的表現(xiàn)。

紅星新聞記者李偉銘

關(guān)注我們