
華為和浙江大學(xué)發(fā)布 DeepSeek-R1-Safe
聲明:該文章由作者(石川美緒)發(fā)表,轉(zhuǎn)載此文章須經(jīng)作者同意并請附上出處(0XUCN)及本頁鏈接。。
華為和浙江大學(xué)合作使用華為昇騰芯片和 MindSpeedLLM 等框架發(fā)布了 DeepSeek R1 模型的安全加強(qiáng)版 DeepSeek-R1-Safe(中國聯(lián)通也有相似名字的安全版本模型)。源代碼發(fā)表在 GitHub 等平臺上。研究人員稱他們基于國內(nèi)外法律法規(guī)與核心價值觀,構(gòu)建了中英文雙語的安全語料。
其中語料不僅包含了帶有安全思維鏈的標(biāo)注,還提供了相應(yīng)的安全回復(fù),可用于大模型的安全訓(xùn)練、微調(diào)以及測試。測試結(jié)果表明,DeepSeek-R1-Safe 針對有毒有害言論、政治敏感內(nèi)容、違法行為教唆等14個維度的普通有害問題整體防御成功率近 100%,針對情境假設(shè)、角色扮演、加密編碼等多個越獄模式整體防御成功率超過40%。其綜合安全防御能力達(dá)83%,在同樣測試設(shè)置下超過Qwen-235B和DeepSeek-R1-671B等多個同期模型8%至15%。此外,在MMLU、GSM8K、CEVAL等通用能力基準(zhǔn)測試中,DeepSeek-R1-Safe相比于DeepSeek-R1的性能損耗在1%以內(nèi)。這些結(jié)果表明DeepSeek-R1-Safe不僅顯著提升了安全防護(hù)能力,也保障了模型的可用性,達(dá)成了安全能力與通用性能之間的有效平衡。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904703
- 2 今年最強(qiáng)臺風(fēng)來襲 7809645
- 3 澳加英宣布承認(rèn)巴勒斯坦國 7713022
- 4 長春航空展這些“首次”不要錯過 7618334
- 5 43歲二胎媽媽患阿爾茨海默病 7521044
- 6 iPhone 17橙色斜挎掛繩賣斷貨 7425309
- 7 女子花10萬云養(yǎng)豬生重病難退錢 7327452
- 8 三所“零近視”小學(xué)帶來的啟示 7233133
- 9 中國消失的森林正“全盤復(fù)活” 7141892
- 10 老奶奶去世3年 鄰居幫打掃門前落葉 7044007