180G!中文ELECTRA預訓練模型再升級

哈工大SCIR發表於2020-10-26

在今年3月,哈工大訊飛聯合實驗室推出了中文ELECTRA預訓練模型,並將相關資源進行開源,目前在GitHub上已獲得580個star。本次更新中,我們將預訓練語料從原有的約20G提升至180G,利用接近9倍大小的資料集。在閱讀理解、自然語言推斷、句對分類等中文自然語言處理任務中,ELECTRA-180G相比原版ELECTRA獲得了顯著效能提升。歡迎各位讀者下載試用相關模型。

180G!中文ELECTRA預訓練模型再升級

專案地址:http://github.com/ymcui/Chinese-ELECTRA

ELECTRA簡介

ELECTRA提出了一套新的預訓練框架,其中包含兩個部分:Generator和Discriminator。

  • Generator: 一個小的MLM,在[MASK]的位置預測原來的詞。Generator將用來把輸入文字做部分詞的替換。

  • Discriminator: 判斷輸入句子中的每個詞是否被替換,即使用Replaced Token Detection (RTD)預訓練任務,取代了BERT原始的Masked Language Model (MLM)。需要注意的是這裡並沒有使用Next Sentence Prediction (NSP)任務。

在預訓練階段結束之後,我們只使用Discriminator作為下游任務精調的基模型。180G!中文ELECTRA預訓練模型再升級

更詳細的技術內容請查閱ELECTRA論文:ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators(https://openreview.net/pdf?id=r1xMH1BtvB

同時,也可透過閱讀我們的講義《Revisiting Pre-trained Models for Chinese Natural Language Processing》瞭解更多預訓練語言模型相關前沿進展(公眾號後臺回覆NLPCC2020即可下載)。

中文ELECTRA

除了使用與RoBERTa-wwm-ext系列模型一致的擴充套件訓練資料(約20G)之外,我們從CommonCrawl中獲取了更大規模中文文字資料,並經過資料清洗等操作,進一步將預訓練語料規模擴充到180G。本次釋出以下四個模型:

  • ELECTRA-180g-large, Chinese: 24-layer, 1024-hidden, 16-heads, 324M parameters

  • ELECTRA-180g-base, Chinese: 12-layer, 768-hidden, 12-heads, 102M parameters

  • ELECTRA-180g-small-ex, Chinese: 24-layer, 256-hidden, 4-heads, 25M parameters

  • ELECTRA-180g-small, Chinese: 12-layer, 256-hidden, 4-heads, 12M parameters

快速載入

哈工大訊飛聯合實驗室釋出的所有中文預訓練語言模型均可透過huggingface transformers庫進行快速載入訪問,請登入我們的共享頁面獲取更多資訊。

https://huggingface.co/HFL

效果評測

在CMRC 2018(簡體中文閱讀理解),DRCD(繁體中文閱讀理解),XNLI(自然語言推斷),BQ Corpus(句對分類)任務上,ELECTRA-180G顯著超過原版ELECTRA的效果。更詳細的效果評測請檢視專案的GitHub。

CMRC 2018

180G!中文ELECTRA預訓練模型再升級

DRCD

180G!中文ELECTRA預訓練模型再升級

XNLI

180G!中文ELECTRA預訓練模型再升級

BQ Corpus

180G!中文ELECTRA預訓練模型再升級

相關資源地址

  • TextBrewer知識蒸餾工具

    • http://github.com/airaria/TextBrewer

  • 中文BERT、RoBERTa、RBT系列模型

    • https://github.com/ymcui/Chinese-BERT-wwm

  • 中文XLNet系列模型

    • https://github.com/ymcui/Chinese-XLNet

  • 中文MacBERT模型

    • https://github.com/ymcui/MacBERT

本期責任編輯:崔一鳴

本期編輯:馮   晨

相關文章