華為和浙江大學(xué)發(fā)布 DeepSeek-R1-Safe

安全 2025-09-21 02:05

聲明：該文章由作者（石川美緒）發(fā)表，轉(zhuǎn)載此文章須經(jīng)作者同意并請附上出處(0XUCN)及本頁鏈接。。

華為和浙江大學(xué)合作使用華為昇騰芯片和 MindSpeedLLM 等框架發(fā)布了 DeepSeek R1 模型的安全加強(qiáng)版 DeepSeek-R1-Safe（中國聯(lián)通也有相似名字的安全版本模型）。源代碼發(fā)表在 GitHub 等平臺上。研究人員稱他們基于國內(nèi)外法律法規(guī)與核心價值觀，構(gòu)建了中英文雙語的安全語料。

其中語料不僅包含了帶有安全思維鏈的標(biāo)注，還提供了相應(yīng)的安全回復(fù)，可用于大模型的安全訓(xùn)練、微調(diào)以及測試。測試結(jié)果表明，DeepSeek-R1-Safe 針對有毒有害言論、政治敏感內(nèi)容、違法行為教唆等14個維度的普通有害問題整體防御成功率近 100%，針對情境假設(shè)、角色扮演、加密編碼等多個越獄模式整體防御成功率超過40%。其綜合安全防御能力達(dá)83%，在同樣測試設(shè)置下超過Qwen-235B和DeepSeek-R1-671B等多個同期模型8%至15%。此外，在MMLU、GSM8K、CEVAL等通用能力基準(zhǔn)測試中，DeepSeek-R1-Safe相比于DeepSeek-R1的性能損耗在1%以內(nèi)。這些結(jié)果表明DeepSeek-R1-Safe不僅顯著提升了安全防護(hù)能力，也保障了模型的可用性，達(dá)成了安全能力與通用性能之間的有效平衡。

關(guān)注我們