Klear-Reasoner – 快手開源的推理模型

智能 PRO 稿源：AI工具集 2025-08-20 15:07

Klear-Reasoner是什么

Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型，專注于提升數(shù)學(xué)和代碼推理能力。模型通過長(zhǎng)思維鏈監(jiān)督微調(diào)（long CoT SFT）和強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練，核心創(chuàng)新是 GPPO算法，通過保留被裁剪的梯度信息，解決傳統(tǒng)方法中探索能力受限和負(fù)樣本收斂慢的問題，在 AIME 和 LiveCodeBench 等基準(zhǔn)測(cè)試中達(dá)到 8B 模型的頂尖水平。Klear-Reasoner 的訓(xùn)練細(xì)節(jié)和全流程公開，為推理模型的發(fā)展提供重要的參考和復(fù)現(xiàn)路徑。

Klear-Reasoner的主要功能

數(shù)學(xué)推理：Klear-Reasoner 在復(fù)雜的數(shù)學(xué)問題上表現(xiàn)出色，能解決高難度的數(shù)學(xué)競(jìng)賽題目。
代碼生成與推理：能生成高質(zhì)量的代碼，通過 LiveCodeBench V5 和 V6 的評(píng)測(cè)，分別達(dá)到 66.0% 和 58.1% 的準(zhǔn)確率。
長(zhǎng)思維鏈推理：Klear-Reasoner 能處理復(fù)雜的長(zhǎng)思維鏈任務(wù)，通過長(zhǎng)思維鏈監(jiān)督微調(diào)（long CoT SFT）和強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練，提升模型在多步推理中的表現(xiàn)。
數(shù)據(jù)質(zhì)量?jī)?yōu)化：在訓(xùn)練過程中，Klear-Reasoner 優(yōu)先選擇高質(zhì)量數(shù)據(jù)源，確保模型學(xué)習(xí)到準(zhǔn)確的推理模式，保留部分錯(cuò)誤樣本提升模型的探索能力。

Klear-Reasoner的技術(shù)原理

長(zhǎng)思維鏈監(jiān)督微調(diào)（long CoT SFT）：用高質(zhì)量的數(shù)據(jù)源進(jìn)行監(jiān)督微調(diào)，確保模型學(xué)習(xí)到準(zhǔn)確的推理模式。優(yōu)先選擇少數(shù)高質(zhì)量數(shù)據(jù)源，避免低質(zhì)量數(shù)據(jù)引入噪聲。保留部分錯(cuò)誤樣本，尤其是在高難度任務(wù)中，有助于模型的探索能力。
強(qiáng)化學(xué)習(xí)（RL）：用強(qiáng)化學(xué)習(xí)進(jìn)一步提升模型的推理能力，特別是在數(shù)學(xué)和代碼任務(wù)上?；谲洩?jiǎng)勵(lì)機(jī)制，根據(jù)測(cè)試用例的通過率給予獎(jiǎng)勵(lì)，緩解獎(jiǎng)勵(lì)稀疏問題，提升訓(xùn)練效率。過濾掉測(cè)試用例存在問題的數(shù)據(jù)，確保訓(xùn)練數(shù)據(jù)的高質(zhì)量。
GPPO（Gradient-Preserving Clipping Policy Optimization）算法：傳統(tǒng) PPO 和 GRPO 算法中，clip 操作會(huì)丟棄高熵 token 的梯度，限制模型的探索能力，導(dǎo)致負(fù)樣本延遲收斂。GPPO 基于 stop gradient 操作，將 clip 操作與梯度反向傳播解耦，保留所有 token 的梯度。對(duì)于高熵 token，GPPO 保留其梯度并約束在一定范圍內(nèi)。對(duì)于負(fù)樣本 token，GPPO 保留梯度并限制在一定幅度內(nèi)，加快錯(cuò)誤修正速度。
軟獎(jiǎng)勵(lì)機(jī)制：在代碼任務(wù)的強(qiáng)化學(xué)習(xí)中，用軟獎(jiǎng)勵(lì)機(jī)制（根據(jù)測(cè)試用例的通過率給予獎(jiǎng)勵(lì)）比硬獎(jiǎng)勵(lì)（完全通過得分，否則為零）更有效。軟獎(jiǎng)勵(lì)機(jī)制能緩解獎(jiǎng)勵(lì)稀疏問題，增加訓(xùn)練信號(hào)的密度，降低梯度估計(jì)的方差，使模型的學(xué)習(xí)過程更穩(wěn)定、更高效。

Klear-Reasoner的項(xiàng)目地址

GitHub倉庫：https://github.com/suu990901/KlearReasoner/
HuggingFace模型庫：https://huggingface.co/Suu/Klear-Reasoner-8B
arXiv技術(shù)論文：https://arxiv.org/pdf/2508.07629

Klear-Reasoner的應(yīng)用場(chǎng)景

教育領(lǐng)域：作為智能數(shù)學(xué)家教，為學(xué)生提供詳細(xì)的解題步驟和推理過程，幫助用戶更好地理解和掌握數(shù)學(xué)知識(shí)。
軟件開發(fā)：自動(dòng)生成高質(zhì)量代碼片段，輔助開發(fā)者快速實(shí)現(xiàn)功能模塊，同時(shí)提供代碼審查建議，提高代碼質(zhì)量和開發(fā)效率。
金融科技：分析金融數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)評(píng)估和預(yù)測(cè)，為金融機(jī)構(gòu)提供邏輯推理支持，助力更精準(zhǔn)的決策制定。
科研與數(shù)據(jù)分析：Klear-Reasoner 能處理復(fù)雜的數(shù)據(jù)分析和科學(xué)計(jì)算任務(wù)，為研究人員提供邏輯推理和模型解釋，提升科研效率。
智能客服：快速準(zhǔn)確地解答用戶復(fù)雜問題，提供清晰的推理過程，提升用戶體驗(yàn)和問題解決效率。

0XU.CN