對doccano自動標註使用的預設UIE模型進行微調以提高特定領域的實體識別能力，提高標註速度

孤飛發表於2023-04-22

原文網址 : https://www.cnblogs.com/ranxi169/p/17343197.html

UI模型

雖然doccano的自動標註使用預設的UIE模型可以識別出一定的實體，但是在特定領域或者因為實體類別名不能被理解很多實體是識別不了的，所以我們可以透過自己標註的資料對模型進行微調來滿足我們Auto Labeing的需求。

預處理doccano標註的資料

該章節詳細說明如何透過doccano.py指令碼對doccano平臺匯出的標註資料進行轉換，一鍵生成訓練/驗證/測試集。

在本地部署UIE模型

下載模型壓縮包：

本來是要透過一定的方法（GitZip）才能在整體的大專案倉庫中下載的，不詳細講，這裡直接給壓縮包。

PaddleNLP-model_zoo.zip - 藍奏雲 (lanzoub.com)

對doccano自動標註使用的預設UIE模型進行微調以提高特定領域的實體識別能力，提高標註速度

抽取式任務資料轉換

當標註完成後，在 doccano 平臺上匯出 JSONL(relation) 形式的檔案，並將其重新命名為 doccano_ext.json 後，放入 ./data 目錄下。
透過 doccano.py 指令碼進行資料形式轉換，然後便可以開始進行相應模型訓練。

python doccano.py \
    --doccano_file ./data/doccano_ext.json \
    --task_type "ext" \
    --save_dir ./data \
    --negative_ratio 5

當然也可以將這個命令儲存為tran.sh檔案

訓練UIE模型

使用標註資料進行小樣本訓練，模型引數儲存在./checkpoint/目錄。

tips: 推薦使用GPU環境，否則可能會記憶體溢位。CPU環境下，可以修改model為uie-tiny，適當調下batch_size。

增加準確率的話：--num_epochs 設定大點多訓練訓練

可配置引數說明：

model_name_or_path：必須，進行 few shot 訓練使用的預訓練模型。可選擇的有 "uie-base"、 "uie-medium", "uie-mini", "uie-micro", "uie-nano", "uie-m-base", "uie-m-large"。
multilingual：是否是跨語言模型，用 "uie-m-base", "uie-m-large" 等模型進微調得到的模型也是多語言模型，需要設定為 True；預設為 False。
output_dir：必須，模型訓練或壓縮後儲存的模型目錄；預設為 None 。
device: 訓練裝置，可選擇 'cpu'、'gpu' 、'npu'其中的一種；預設為 GPU 訓練。
per_device_train_batch_size：訓練集訓練過程批處理大小，請結合視訊記憶體情況進行調整，若出現視訊記憶體不足，請適當調低這一引數；預設為 32。
per_device_eval_batch_size：開發集評測過程批處理大小，請結合視訊記憶體情況進行調整，若出現視訊記憶體不足，請適當調低這一引數；預設為 32。
learning_rate：訓練最大學習率，UIE 推薦設定為 1e-5；預設值為3e-5。
num_train_epochs: 訓練輪次，使用早停法時可以選擇 100；預設為10。
logging_steps: 訓練過程中日誌列印的間隔 steps 數，預設100。
save_steps: 訓練過程中儲存模型 checkpoint 的間隔 steps 數，預設100。
seed：全域性隨機種子，預設為 42。
weight_decay：除了所有 bias 和 LayerNorm 權重之外，應用於所有層的權重衰減數值。可選；預設為 0.0；
do_train:是否進行微調訓練，設定該參數列示進行微調訓練，預設不設定。
do_eval:是否進行評估，設定該參數列示進行評估。

該示例程式碼中由於設定了引數 --do_eval，因此在訓練完會自動進行評估。

微調命令

export finetuned_model=./checkpoint/model_best

python finetune.py  \
    --device gpu \
    --logging_steps 10 \
    --save_steps 100 \
    --eval_steps 100 \
    --seed 42 \
    --model_name_or_path uie-base \
    --output_dir $finetuned_model \
    --train_path ./data/train.txt \
    --dev_path ./data/dev.txt  \
    --max_seq_length 512  \
    --per_device_eval_batch_size 16 \
    --per_device_train_batch_size  16 \
    --num_train_epochs 20 \
    --learning_rate 1e-5 \
    --label_names "start_positions" "end_positions" \
    --do_train \
    --do_eval \
    --do_export \
    --export_model_dir $finetuned_model \
    --overwrite_output_dir \
    --disable_tqdm True \
    --metric_for_best_model eval_f1 \
    --load_best_model_at_end  True \
    --save_total_limit 1

訓練完成的結果：

驗證UIE模型效果

透過執行以下命令進行模型評估：

python evaluate.py \
    --model_path ./checkpoint/model_best \
    --test_path ./data/dev.txt \
    --batch_size 16 \
    --max_seq_len 512

根據我們手動標註的資料訓練微調後，再次測試自有標註的領域資料，返回的準確率為88%.

部署微調後的UIE模型

本地終端定製模型一鍵預測

paddlenlp.Taskflow裝載定製模型，透過task_path指定模型權重檔案的路徑，路徑下需要包含訓練好的模型權重檔案model_state.pdparams。

from pprint import pprint
from paddlenlp import Taskflow
schema = ['出發地', '目的地', '費用', '時間']#根據自身實體類別修改
# 設定抽取目標和定製化模型權重路徑
my_ie = Taskflow("information_extraction", schema=schema, task_path='./checkpoint/model_best')
pprint(my_ie("城市內交通費7月5日金額114廣州至佛山"))

經過測試，原本無法預測出來的型別在引入自己標註的模型之後就可以識別出來了。自此我們可以實現標註的資料用於訓練，訓練的模型又可以提升我們標註的速率。

模型快速服務化部署

在UIE的服務化能力中我們提供基於PaddleNLP SimpleServing 來搭建服務化能力，透過幾行程式碼即可搭建服務化部署能力。

在上一篇文章如何使用doccano+flask+花生殼+伺服器實現命名實體識別ner自動標註 - 孤飛 - 部落格園 (cnblogs.com)中的部署程式碼裡，我們修改task_path模型路徑為剛剛微調過後的即可完成識別。

from flask import Flask, request, jsonify
from paddlenlp import Taskflow


app = Flask(__name__)

# 在這裡定義你想要識別的實體型別
# UIE具有zero-shot能力，所以型別可以隨便定義，但是識別的好壞不一定
schema = ['出發地', '目的地', '費用', '時間']#根據自身實體類別修改

# 第一執行時，聯網狀態下會自動下載模型
# device_id為gpu id，如果寫-1則使用cpu,如果寫0則使用gpu
ie = Taskflow('information_extraction', schema=schema, device_id=0,task_path='./uie/checkpoint/model_best/')#新增了tesk_path指向新的模型


def convert(result):
    result = result[0]
    formatted_result = []
    for label, ents in result.items():
        for ent in ents:
            formatted_result.append(
                {
                    "label": label,
                    "start_offset": ent['start'],
                    "end_offset": ent['end']
                })

    return formatted_result


@app.route('/', methods=['POST'])
def get_result():
    text = request.json['text']
    print(text)
    result = ie(text)
    formatted_result = convert(result)

    return jsonify(formatted_result)


if __name__ == '__main__':
	# 這裡寫埠的時候一定要注意不要與已有的埠衝突
	# 這裡的host並不是說訪問的時候一定要寫0.0.0.0，但是這裡程式碼要寫0.0.0.0，代表可以被本網路中所有的看到
	# 如果是其他機器訪問你建立的服務，訪問的時候要寫你的ip
    app.run(host='0.0.0.0', port=88)

參考文章：

PaddleNLP/doccano 資料轉換 GitHub

PaddleNLP/README.md 模型微調 GitHub

資訊抽取UIE（二）--小樣本快速提升效能（含doccona標註-阿里雲開發者社群 (aliyun.com)

解決報錯：cannot import name 'strtobool' from 'paddlenlp.trainer.argparser'

Question 使用uie，標好資料再用doccano.py指令碼的時候發生錯誤：cannot import name 'strtobool' from 'paddlenlp.trainer.argparser' · Issue #5257 · PaddlePaddle/PaddleNLP (github.com)

使用doccano標註NER資料詳細教程
2024-10-12
基於Label studio實現UIE資訊抽取智慧標註方案，提升標註效率！
2023-04-04
UI
如何使用機器學習進行影像識別 | 資料標註
2023-01-13
機器學習
利用目標跟蹤來提高實時人臉識別處理速度
2020-09-02
微調大型語言模型進行命名實體識別
2024-03-17
模型
使用 JSDoc 標註型別
2018-06-29
JS型別
自動生成特定領域模型和圖表
2024-06-14
模型
基於Labelstudio的UIE半監督智慧標註方案（本地版）
2023-04-03
UI
如何提高資料標註質量，提供精細化標註資料集?丨曼孚科技
2020-05-25
微軟提議對 JavaScript 進行重大修改：將新增型別標註（Type Annotations）
2022-03-17
微軟JavaScript型別
使用人工智慧機器人提高農業效率 | 資料標註
2023-01-16
人工智慧機器人
CAD中如何進行尺寸標註
2021-07-20
怎麼提高go讀取標準輸入的速度
2019-01-11
Go
資料標註在自動駕駛領域中的具體應用丨曼孚科技
2020-02-28
自動駕駛
基於結構化感知機的詞性標註與命名實體識別框架
2019-04-08
詞性標註框架
BERT微調進行命名實體識別並將模型儲存為pb形式
2020-11-21
模型
在雲中利用開源軟體進行開發以提高創新能力
2021-07-29
主動學習可減少對標註資料的依賴卻會造成標註冗餘？
2019-12-22
CMU 領域自適應最新進展：對齊資料分佈、誤差還不夠，標註函式也需對齊！
2019-09-27
函式
使用PaddleFluid和TensorFlow訓練序列標註模型
2018-07-11
UI模型
如何使用 JIra 對 bug 進行更詳細的標識
2020-10-19
做一家擁有超強資料標註能力的專業資料標註公司
2023-01-17
AI人工智慧—資料標註的主要型別和標註注意事項
2023-01-31
AI人工智慧型別
徹底摒棄人工標註，AutoAlign方法基於大模型讓知識圖譜對齊全自動化
2024-07-26
大模型
Hanlp實戰HMM-Viterbi角色標註中國人名識別
2018-10-22
HanLPHMMViterbi
Python自然語言處理實戰（4）：詞性標註與命名實體識別
2018-07-16
Python自然語言處理詞性標註
提高微信小程式的應用速度
2021-10-22
微信小程式
中望3D 2021 自動標註
2020-11-06
3D
修改labelme標註的標籤名
2024-11-06
提高App的啟動速度，你真的做對了嗎？
2021-09-09
APP
如何學習自媒體，提高自己的寫作能力？
2022-04-08
AUTOCAD——座標標註
2021-09-23
詳解成熟的資料標註工具—智慧標註平臺
2023-01-09
TPAMI 2024 | 自適應區域特定損失：提高影像分割效能
2024-08-18
拆分PPOCRLabel標註的資料集並生成識別資料集
2024-10-31
基於keras的BiLstm與CRF實現命名實體標註
2018-03-26
KerasCRF
python的詞性標註
2020-12-24
Python詞性標註
序列標註
2020-11-27