
華為和浙江大學(xué)發(fā)布 DeepSeek-R1-Safe
華為和浙江大學(xué)合作使用華為昇騰芯片和 MindSpeedLLM 等框架發(fā)布了 DeepSeek R1 模型的安全加強版 DeepSeek-R1-Safe(中國聯(lián)通也有相似名字的安全版本模型)。源代碼發(fā)表在 GitHub 等平臺上。研究人員稱他們基于國內(nèi)外法律法規(guī)與核心價值觀,構(gòu)建了中英文雙語的安全語料。
其中語料不僅包含了帶有安全思維鏈的標(biāo)注,還提供了相應(yīng)的安全回復(fù),可用于大模型的安全訓(xùn)練、微調(diào)以及測試。測試結(jié)果表明,DeepSeek-R1-Safe 針對有毒有害言論、政治敏感內(nèi)容、違法行為教唆等14個維度的普通有害問題整體防御成功率近 100%,針對情境假設(shè)、角色扮演、加密編碼等多個越獄模式整體防御成功率超過40%。其綜合安全防御能力達83%,在同樣測試設(shè)置下超過Qwen-235B和DeepSeek-R1-671B等多個同期模型8%至15%。此外,在MMLU、GSM8K、CEVAL等通用能力基準(zhǔn)測試中,DeepSeek-R1-Safe相比于DeepSeek-R1的性能損耗在1%以內(nèi)。這些結(jié)果表明DeepSeek-R1-Safe不僅顯著提升了安全防護能力,也保障了模型的可用性,達成了安全能力與通用性能之間的有效平衡。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

隨時掌握互聯(lián)網(wǎng)精彩
- 1 傳統(tǒng)產(chǎn)業(yè)“綠”動“智”變 7904442
- 2 女兒發(fā)現(xiàn)父親500多萬遺產(chǎn)用于保健 7808241
- 3 為阻止印籍員工返美 美國人組團搶票 7712168
- 4 殲-20的首次靜態(tài)展示有何重要意義 7618501
- 5 大爺蹲點進周杰倫演唱會賣水:5元1瓶 7520308
- 6 菲軍方宣布“紅色警戒”狀態(tài) 7426684
- 7 “我爸給我寄了兩枝路邊看到的花” 7328590
- 8 央視曝光??永夏耆说乃接蛑辈ラg 7235719
- 9 AI開始鬧情緒 打工人反向共情 7139232
- 10 樊振東賽場上演“憑空取球” 7042068