黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標(biāo)簽
我們會為你匹配適合你的網(wǎng)址導(dǎo)航

    確認(rèn) 跳過

    跳過將刪除所有初始化信息

    LaWGPT基于中文法律知識的大語言模型

    智能 2023-05-31 02:41

    聲明:該文章由作者(唐鈺)發(fā)表,轉(zhuǎn)載此文章須經(jīng)作者同意并請附上出處(0XUCN)及本頁鏈接。。

    LaWGPT 是一系列基于中文法律知識的開源大語言模型。

    該系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基礎(chǔ)上擴(kuò)充法律領(lǐng)域?qū)S性~表、大規(guī)模中文法律語料預(yù)訓(xùn)練,增強了大模型在法律領(lǐng)域的基礎(chǔ)語義理解能力。在此基礎(chǔ)上,構(gòu)造法律領(lǐng)域?qū)υ拞柎饠?shù)據(jù)集、中國司法考試數(shù)據(jù)集進(jìn)行指令精調(diào),提升了模型對法律內(nèi)容的理解和執(zhí)行能力。

    詳細(xì)內(nèi)容請參考技術(shù)報告。

    項目結(jié)構(gòu)

    LaWGPT

    ├── assets # 項目靜態(tài)資源

    ├── data? ?# 語料及精調(diào)數(shù)據(jù)

    ├── tools? # 數(shù)據(jù)清洗等工具

    ├── README.md

    ├── requirements.txt

    └── src? ? # 源碼

    ? ? ├── finetune.py

    ? ? ├── generate.py

    ? ? ├── models? # 基座模型及 Lora 權(quán)重

    ? ? │? ?├── base_models

    ? ? │? ?└── lora_weights

    ? ? ├── outputs

    ? ? ├── scripts # 腳本文件

    ? ? │? ?├── finetune.sh # 指令微調(diào)

    ? ? │? ?└── generate.sh # 服務(wù)創(chuàng)建

    ? ? ├── templates

    ? ? └── utils


    數(shù)據(jù)構(gòu)建

    本項目基于中文裁判文書網(wǎng)公開法律文書數(shù)據(jù)、司法考試數(shù)據(jù)等數(shù)據(jù)集展開,詳情參考中文法律數(shù)據(jù)匯總

    初級數(shù)據(jù)生成:根據(jù)?Stanford_alpaca?和?self-instruct?方式生成對話問答數(shù)據(jù)

    知識引導(dǎo)的數(shù)據(jù)生成:通過 Knowledge-based Self-Instruct 方式基于中文法律結(jié)構(gòu)化知識生成數(shù)據(jù)。

    引入 ChatGPT 清洗數(shù)據(jù),輔助構(gòu)造高質(zhì)量數(shù)據(jù)集。

    模型訓(xùn)練

    LawGPT 系列模型的訓(xùn)練過程分為兩個階段:

    第一階段:擴(kuò)充法律領(lǐng)域詞表,在大規(guī)模法律文書及法典數(shù)據(jù)上預(yù)訓(xùn)練 Chinese-LLaMA

    第二階段:構(gòu)造法律領(lǐng)域?qū)υ拞柎饠?shù)據(jù)集,在預(yù)訓(xùn)練模型基礎(chǔ)上指令精調(diào)

    二次訓(xùn)練流程

    參考?src/data/example_instruction_train.json?構(gòu)造二次訓(xùn)練數(shù)據(jù)集

    運行?src/scripts/train_lora.sh

    指令精調(diào)步驟

    參考?src/data/example_instruction_tune.json?構(gòu)造指令微調(diào)數(shù)據(jù)集

    運行?src/scripts/finetune.sh

    計算資源

    8 張 Tesla V100-SXM2-32GB

    模型評估

    輸出示例

    問題:請給出判決意見。

    問題:請介紹賭博罪的定義。

    問題:請問加班工資怎么算?

    局限性

    由于計算資源、數(shù)據(jù)規(guī)模等因素限制,當(dāng)前階段 LawGPT 存在諸多局限性:

    數(shù)據(jù)資源有限、模型容量較小,導(dǎo)致其相對較弱的模型記憶和語言能力。因此,在面對事實性知識任務(wù)時,可能會生成不正確的結(jié)果。

    該系列模型只進(jìn)行了初步的人類意圖對齊。因此,可能產(chǎn)生不可預(yù)測的有害內(nèi)容以及不符合人類偏好和價值觀的內(nèi)容。

    自我認(rèn)知能力存在問題,中文理解能力有待增強。

    關(guān)注我們

    [超站]友情鏈接:

    四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
    關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

    圖庫