
Klear-Reasoner – 快手開源的推理模型
Klear-Reasoner是什么
Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型,專注于提升數(shù)學(xué)和代碼推理能力。模型通過長(zhǎng)思維鏈監(jiān)督微調(diào)(long CoT SFT)和強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,核心創(chuàng)新是 GPPO算法,通過保留被裁剪的梯度信息,解決傳統(tǒng)方法中探索能力受限和負(fù)樣本收斂慢的問題,在 AIME 和 LiveCodeBench 等基準(zhǔn)測(cè)試中達(dá)到 8B 模型的頂尖水平。Klear-Reasoner 的訓(xùn)練細(xì)節(jié)和全流程公開,為推理模型的發(fā)展提供重要的參考和復(fù)現(xiàn)路徑。
Klear-Reasoner的主要功能
數(shù)學(xué)推理:Klear-Reasoner 在復(fù)雜的數(shù)學(xué)問題上表現(xiàn)出色,能解決高難度的數(shù)學(xué)競(jìng)賽題目。
代碼生成與推理:能生成高質(zhì)量的代碼,通過 LiveCodeBench V5 和 V6 的評(píng)測(cè),分別達(dá)到 66.0% 和 58.1% 的準(zhǔn)確率。
長(zhǎng)思維鏈推理:Klear-Reasoner 能處理復(fù)雜的長(zhǎng)思維鏈任務(wù),通過長(zhǎng)思維鏈監(jiān)督微調(diào)(long CoT SFT)和強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,提升模型在多步推理中的表現(xiàn)。
數(shù)據(jù)質(zhì)量?jī)?yōu)化:在訓(xùn)練過程中,Klear-Reasoner 優(yōu)先選擇高質(zhì)量數(shù)據(jù)源,確保模型學(xué)習(xí)到準(zhǔn)確的推理模式,保留部分錯(cuò)誤樣本提升模型的探索能力。
Klear-Reasoner的技術(shù)原理
長(zhǎng)思維鏈監(jiān)督微調(diào)(long CoT SFT):用高質(zhì)量的數(shù)據(jù)源進(jìn)行監(jiān)督微調(diào),確保模型學(xué)習(xí)到準(zhǔn)確的推理模式。優(yōu)先選擇少數(shù)高質(zhì)量數(shù)據(jù)源,避免低質(zhì)量數(shù)據(jù)引入噪聲。保留部分錯(cuò)誤樣本,尤其是在高難度任務(wù)中,有助于模型的探索能力。
強(qiáng)化學(xué)習(xí)(RL):用強(qiáng)化學(xué)習(xí)進(jìn)一步提升模型的推理能力,特別是在數(shù)學(xué)和代碼任務(wù)上?;谲洩?jiǎng)勵(lì)機(jī)制,根據(jù)測(cè)試用例的通過率給予獎(jiǎng)勵(lì),緩解獎(jiǎng)勵(lì)稀疏問題,提升訓(xùn)練效率。過濾掉測(cè)試用例存在問題的數(shù)據(jù),確保訓(xùn)練數(shù)據(jù)的高質(zhì)量。
GPPO(Gradient-Preserving Clipping Policy Optimization)算法:傳統(tǒng) PPO 和 GRPO 算法中,clip 操作會(huì)丟棄高熵 token 的梯度,限制模型的探索能力,導(dǎo)致負(fù)樣本延遲收斂。GPPO 基于 stop gradient 操作,將 clip 操作與梯度反向傳播解耦,保留所有 token 的梯度。對(duì)于高熵 token,GPPO 保留其梯度并約束在一定范圍內(nèi)。對(duì)于負(fù)樣本 token,GPPO 保留梯度并限制在一定幅度內(nèi),加快錯(cuò)誤修正速度。
軟獎(jiǎng)勵(lì)機(jī)制:在代碼任務(wù)的強(qiáng)化學(xué)習(xí)中,用軟獎(jiǎng)勵(lì)機(jī)制(根據(jù)測(cè)試用例的通過率給予獎(jiǎng)勵(lì))比硬獎(jiǎng)勵(lì)(完全通過得分,否則為零)更有效。軟獎(jiǎng)勵(lì)機(jī)制能緩解獎(jiǎng)勵(lì)稀疏問題,增加訓(xùn)練信號(hào)的密度,降低梯度估計(jì)的方差,使模型的學(xué)習(xí)過程更穩(wěn)定、更高效。
Klear-Reasoner的項(xiàng)目地址
GitHub倉庫:https://github.com/suu990901/KlearReasoner/
HuggingFace模型庫:https://huggingface.co/Suu/Klear-Reasoner-8B
arXiv技術(shù)論文:https://arxiv.org/pdf/2508.07629
Klear-Reasoner的應(yīng)用場(chǎng)景
教育領(lǐng)域:作為智能數(shù)學(xué)家教,為學(xué)生提供詳細(xì)的解題步驟和推理過程,幫助用戶更好地理解和掌握數(shù)學(xué)知識(shí)。
軟件開發(fā):自動(dòng)生成高質(zhì)量代碼片段,輔助開發(fā)者快速實(shí)現(xiàn)功能模塊,同時(shí)提供代碼審查建議,提高代碼質(zhì)量和開發(fā)效率。
金融科技:分析金融數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)評(píng)估和預(yù)測(cè),為金融機(jī)構(gòu)提供邏輯推理支持,助力更精準(zhǔn)的決策制定。
科研與數(shù)據(jù)分析:Klear-Reasoner 能處理復(fù)雜的數(shù)據(jù)分析和科學(xué)計(jì)算任務(wù),為研究人員提供邏輯推理和模型解釋,提升科研效率。
智能客服:快速準(zhǔn)確地解答用戶復(fù)雜問題,提供清晰的推理過程,提升用戶體驗(yàn)和問題解決效率。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 總書記部署全國(guó)統(tǒng)一大市場(chǎng)建設(shè) 7904382
- 2 589092元善款 全額退還28689位網(wǎng)友 7809217
- 3 人類首次“看見”的黑洞 身份照上新 7712200
- 4 楊靖宇之孫拿出一塊“傳家寶” 7616358
- 5 清華學(xué)霸曬1.67億年薪 美方稱其在逃 7519844
- 6 劉強(qiáng)東直播炒菜調(diào)侃馬云 7425676
- 7 女孩神似劉亦菲 三條視頻漲粉20萬 7333426
- 8 12306回應(yīng)臥鋪乘客打傘遮隱私 7236298
- 9 聯(lián)合國(guó)認(rèn)定以色列犯種族滅絕罪 7142729
- 10 向太稱曾借劉德華4000萬 還沒打欠條 7044049