
混元自研深度思考模型T1正式發(fā)布:吐字快、能秒回
騰訊正式發(fā)布了自研深度思考模型混元T1正式版,這是騰訊自研的最強(qiáng)推理模型。
騰訊表示,T1不僅吐字快、能秒回,還擅長超長文處理。
通過大規(guī)模強(qiáng)化學(xué)習(xí),并結(jié)合數(shù)學(xué)、邏輯推理、科學(xué)和代碼等理科難題的專項(xiàng)優(yōu)化,混元T1正式版進(jìn)一步提升了推理能力。
在體現(xiàn)推理模型基礎(chǔ)能力的常見benchmark上,如大語言模型評(píng)估增強(qiáng)數(shù)據(jù)集MMLU-PRO中,混元T1取得87.2分,僅次于o1。
在CEval、AIME、Zebra Logic等中英文知識(shí)及競賽級(jí)數(shù)學(xué)、邏輯推理的公開基準(zhǔn)測試中,混元T1的成績也達(dá)到業(yè)界領(lǐng)先推理模型的水平。
T1還在多項(xiàng)對(duì)齊任務(wù)、指令跟隨任務(wù)和工具利用任務(wù)中展現(xiàn)出了非常強(qiáng)的適應(yīng)性。
混元T1正式版沿用了混元Turbo S的創(chuàng)新架構(gòu),采用Hybrid-Mamba-Transformer融合模式。
這是工業(yè)界首次將混合Mamba架構(gòu)無損應(yīng)用于超大型推理模型,有效降低了傳統(tǒng)Transformer結(jié)構(gòu)的計(jì)算復(fù)雜度,減少了KV-Cache的內(nèi)存占用,從而顯著降低了訓(xùn)練和推理成本。
基于出色的長文捕捉能力,混元T1能有效解決長文推理中常見的上下文丟失和長距離信息依賴問題。
同時(shí),混合Mamba架構(gòu)針對(duì)長序列處理進(jìn)行了專項(xiàng)優(yōu)化,通過高效的計(jì)算方式,在確保長文本信息捕捉能力的同時(shí)大幅降低資源消耗,在相近的激活參數(shù)量下,實(shí)現(xiàn)了解碼速度提升2倍。
目前騰訊混元T1已經(jīng)開放體驗(yàn),同時(shí)還上線了API:輸入價(jià)格為每百萬tokens 1元,輸出價(jià)格為每百萬tokens 4元。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場:https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904185
- 2 以總理:絕不會(huì)有巴勒斯坦國 等著瞧 7808580
- 3 始祖鳥“惹火” 安踏“惹禍” 7711768
- 4 長春航空展這些“首次”不要錯(cuò)過 7615694
- 5 央視曝光直播間“高端四件套”貓膩 7523525
- 6 浙江大學(xué)教授被留置 持股市值31億 7425608
- 7 內(nèi)蒙古一地集中采集男性居民血樣 7331785
- 8 安踏市值蒸發(fā)125億港元 7231428
- 9 風(fēng)王“樺加沙”體型超整個(gè)廣東省 7136695
- 10 柯克追悼會(huì) 狙擊手站樓頂向民眾揮手 7041652