飛槳帶你瞭解：基於百科類資料訓練的 ELMo 中文預訓練模型

飞桨PaddlePaddle發表於2019-06-06

原文網址 : https://www.pythontab.com/html/2019/ITzixun_0606/1444.html

模型

　　在NLP世界裡

　　有一支很重要的家族

　　英文叫做LARK(LAnguage Representations Kit)，

　　翻譯成中文是語言表示工具箱

　　目前LARK家族最新最重要的三種演算法

　　分別叫做是ELMo，BERT和ERNIE

　　你一定不知道

　　這三個普通的名字

　　竟然包含著一個有趣的祕密

　　真相，即將揭開!

　　我們先從演算法模型的名字尋找一些蛛絲馬跡

　　第一位，ELMo：

　　來自英文Embedding from Language Models 的縮寫

　　來自論文名為Deep contextualized word representation

　　第二位，BERT:

　　來自英文Bidirectional Encoder Representations from Transformers的縮寫

　　來自論文名為Pre-training of Deep Bidirectional Transformers for Language Understanding。

　　第三位，ERNIE:

　　來自英文Enhanced Representation through kNowledge IntEgration) 的縮寫

　　來自論文名為Enhanced Representation through Knowledge Integration。

　　看完了

　　是不是

　　還是一頭霧水

　　哪裡有什麼祕密?

　　不賣關子了，直接上圖!

　　What??

　　再回頭看看

　　你還記得那三個演算法的名字麼

　　ELMo，BERT，ERNIE

　　竟然都是美國經典動畫片

　　《Sesame Street(芝麻街)》裡面的卡通人物!!!

　　好吧，如果你說

　　沒看過這個動畫片，沒感覺啊

　　那我舉個例子

　　如果把《芝麻街》類比成中文《舒克和貝塔》

　　那麼

　　第一篇論文把模型取做“舒克”

　　第二篇很有愛的就叫做“貝塔”

　　第三篇就硬把模型叫做“皮皮魯”

　　也許不久的下一個模型就命名為“魯西西”啦

　　誰說科學家們很無聊

　　是不是也很童趣

　　好了，扯遠了

　　今天

　　我們先給大家介紹LARK家族的ELMo!

　　提出它的論文獲得2018年NAACL最佳paper，

　　它在NLP領域可是有著響噹噹的名頭，讓我們來認識它!

ELMo模型簡介

　　ELMo(Embeddings from Language Models) 是重要的通用語義表示模型之一，以雙向 LSTM 為網路基本元件，以 Language Model 為訓練目標，通過預訓練得到通用的語義表示，將通用的語義表示作為 Feature 遷移到下游 NLP 任務中，會顯著提升下游任務的模型效能。

　　ELMo模型核心是一個雙層雙向的LSTM網路，與傳統的word2vec演算法中詞向量一成不變相比，ELMo會根據上下文改變語義embedding。

　　一個簡單的例子就是 “蘋果”的詞向量

　　句子1：“我買了 1斤蘋果”

　　句子2：“我新買了 1個蘋果 X”

　　在word2vec演算法中，“蘋果”的詞向量固定，無法區分這兩句話的區別，而ELMo可以解決語言中的二義性問題，可以帶來效能的顯著提升。

ELMo專案的飛槳(PaddlePaddle)實現

　　為了方便廣大的開發者，飛槳(PaddlePaddle) 完成了ELMo的開源實現(依賴於 PaddlePaddle 1.4.0),釋出要點如下。

　　注意啦，下面劃重點!!!

　　接下來

　　我們看看怎麼可以快速

　　把ELMo用到我們的專案中來吧!

　　ELMo訓練過程介紹

　　(1)資料預處理

　　將文件按照句號、問號、感嘆以及內容分詞預處理。預處理後的資料檔案，每行為一個分詞後的句子。給出了訓練資料 data/train 和測試資料 data/dev的資料示例如下：

　　本書介紹了中國經濟發展的內外平衡問題、亞洲金融危機十週年回顧與反思、實踐中的城鄉統籌發展、未來十年中國需要研究的重大課題、科學發展與新型工業化等方面。

　　吳敬璉曾經提出中國股市“ 賭場論 ”，主張維護市場規則，保護草根階層生計，被譽為 “中國經濟學界良心”，是媒體和公眾眼中的學術明星。

　　(2)模型訓練

　　利用提供的示例訓練資料和測試資料，進行單機多卡預訓練。在開始預訓練之前，需要把 CUDA、cuDNN、NCCL2 等動態庫路徑加入到環境變數 LD_LIBRARY_PATH 之中，然後執行run.sh即可開始單機多卡預訓練，run.sh檔案內容如下：

　　export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7

　　python train.py \

　　--train_path='data/train/sentence_file_*' \

　　--test_path='data/dev/sentence_file_*' \

　　--vocab_path data/vocabulary_min5k.txt \

　　--learning_rate 0.2 \

　　--use_gpu True \

　　--all_train_tokens 35479 \

　　--local True $@

　　其中， all_train_tokens為train和dev統計出來的tokens總量，訓練過程中，預設每個epoch後，將模型引數寫入到 checkpoints 路徑下，可以用於遷移到下游NLP任務。

　　(3)ELMo模型遷移

　　以 LAC 任務為示例, 將 ELMo 預訓練模型的語義表示遷移到 LAC 任務的主要步驟如下：

　　#step 1: 在已經搭建好的LAC 網路結構之後，載入 ELMo 預訓練模型引數

　　from bilm import init_pretraining_params

　　init_pretraining_params(exe, args.pretrain_elmo_model_path, fluid.default_main_program())

　　#step 2: 基於 ELMo 字典將輸入資料轉化為 word_ids，利用 elmo_encoder 介面獲取 ELMo embedding

　　from bilm import elmo_encoder

　　elmo_embedding = elmo_encoder(word_ids)

　　#step 3: ELMo embedding 與 LAC 原有 word_embedding 拼接得到最終的 embedding

　　word_embedding=fluid.layers.concat(input=[elmo_embedding, word_embedding], axis=1)

　　好的，到這裡，模型的遷移就完成了，

　　再來回顧一下加入ELMo後對效能的提升，

　　心動不如行動

　　趕緊用起來吧!

ERNIE模型簡介

　　學習完了ELMo，我們再來了解一下LARK家族的學習成績最好的重磅成員ERNIE，在多項NLP中文任務上表現非凡。

　　ERNIE通過建模海量資料中的實體概念等先驗語義知識，學習真實世界的語義關係。具體來說，ERNIE 模型通過對詞、實體等語義單元的掩碼，使得模型學習完整概念的語義表示。相較於 BERT 學習原始語言訊號，ERNIE 直接對先驗語義知識單元進行建模，增強了模型語義表示能力。

　　ERNIE在多個公開的中文資料集上進行了效果驗證，包括語言推斷、語義相似度、命名實體識別、情感分析、問答匹配等自然語言處理各類任務上，均超越了語義表示模型 BERT 的效果。

　　更多詳細內容可以參見：

　　https://github.com/PaddlePaddle/LARK

基於飛槳PaddlePaddle的多種影像分類預訓練模型強勢釋出
2019-07-08
模型
飛槳圖學習大模型訓練框架
2023-04-10
大模型框架
人工智慧的預訓練基礎模型的分類
2023-04-21
人工智慧模型
理論+實踐，帶你瞭解分散式訓練
2024-05-08
分散式
自訓練 + 預訓練 = 更好的自然語言理解模型
2020-11-13
模型
RoBERTa中文預訓練模型，你離中文任務的「SOTA」只差個它
2019-09-05
模型
Findings | 中文預訓練語言模型回顧
2020-11-18
模型
獲取和生成基於TensorFlow的MobilNet預訓練模型
2020-11-03
模型
PyTorch預訓練Bert模型
2020-11-17
PyTorch模型
模型訓練：資料預處理和預載入
2020-10-27
模型
【預訓練語言模型】使用Transformers庫進行BERT預訓練
2024-03-13
模型ORM
ELMo的朋友圈：預訓練語言模型真的一枝獨秀嗎？
2019-01-01
模型
預訓練模型 & Fine-tuning
2020-10-18
模型
【AI】Pytorch_預訓練模型
2021-08-26
AIPyTorch模型
飛槳分散式訓練又推新品，4D混合並行可訓千億級AI模型
2021-04-15
分散式並行AI模型
180G！中文ELECTRA預訓練模型再升級
2020-10-26
模型
【預訓練語言模型】使用Transformers庫進行GPT2預訓練
2024-03-13
模型ORMGPT
飛槳PaddlePaddle單機訓練速度優化最佳實踐
2019-07-29
優化
中文最佳，哈工大訊飛聯合釋出全詞覆蓋中文BERT預訓練模型
2019-06-21
模型
PyTorch 模型訓練實⽤教程（程式碼訓練步驟講解）
2020-09-25
PyTorch模型
訓練PaddleOCR文字方向分類模型
2024-08-27
模型
新型大語言模型的預訓練與後訓練正規化，蘋果的AFM基礎語言模型
2024-11-28
模型蘋果
基於Mindspore2.0的GPT2預訓練模型遷移教程
2023-03-10
GPT模型
DeepLab 使用 Cityscapes 資料集訓練模型
2019-04-10
模型
MxNet預訓練模型到Pytorch模型的轉換
2018-06-28
模型PyTorch
新型大語言模型的預訓練與後訓練正規化，阿里Qwen
2024-11-27
模型阿里
ML2021 | (騰訊)PatrickStar：通過基於塊的記憶體管理實現預訓練模型的並行訓練
2021-11-25
記憶體模型並行
飛槳PaddlePaddle單機訓練速度最佳化最佳實踐
2019-07-29
通用模型、全新框架，WavLM語音預訓練模型全解
2021-12-27
模型框架
資料集訓練
2024-03-18
使用Bert預訓練模型文字分類（內附原始碼）
2019-03-13
模型文字分類原始碼
【LLM訓練系列】NanoGPT原始碼詳解和中文GPT訓練實踐
2024-08-25
NaNGPT原始碼
TorchVision 預訓練模型進行推斷
2021-02-26
模型
LUSE: 無監督資料預訓練短文字編碼模型
2021-07-31
模型
基於 Fluid+JindoCache 加速大模型訓練的實踐
2024-02-28
UI大模型
新型大語言模型的預訓練與後訓練正規化，谷歌的Gemma 2語言模型
2024-11-29
模型谷歌Gemma
新型大語言模型的預訓練與後訓練正規化，Meta的Llama 3.1語言模型
2024-11-30
模型
知識增強的預訓練語言模型系列之ERNIE：如何為預訓練語言模型注入知識
2021-12-30
模型

飛槳帶你瞭解：基於百科類資料訓練的 ELMo 中文預訓練模型

相關文章