從11月初開始,google-research就陸續開源了BERT的各個版本。google此次開源的BERT是透過tensorflow高階API—— tf.estimator
進行封裝(wrapper)的。因此對於不同資料集的適配,只需要修改程式碼中的processor部分,就能進行程式碼的訓練、交叉驗證和測試。
奇點機智技術團隊將結合利用BERT在AI-Challenger機器閱讀理解賽道的實踐表現以及多年的NLP經驗積累,為大家奉上BERT在中文資料集上的fine tune全攻略。
在自己的資料集上執行 BERT
BERT的程式碼同論文裡描述的一致,主要分為兩個部分。一個是訓練語言模型(language model)的預訓練(pretrain)部分。另一個是訓練具體任務(task)的fine-tune部分。在開源的程式碼中,預訓練的入口是在run_pretraining.py
而fine-tune的入口針對不同的任務分別在run_classifier.py
和run_squad.py
。其中run_classifier.py
適用的任務為分類任務。如CoLA、MRPC、MultiNLI這些資料集。而run_squad.py
適用的是閱讀理解(MRC)任務,如squad2.0和squad1.1。
預訓練是BERT很重要的一個部分,與此同時,預訓練需要巨大的運算資源。按照論文裡描述的引數,其Base的設定在消費級的顯示卡Titan x 或Titan 1080ti(12GB RAM)上,甚至需要近幾個月的時間進行預訓練,同時還會面臨視訊記憶體不足的問題。不過所幸的是谷歌滿足了issues#2裡各國開發者的請求,針對大部分語言都公佈了BERT的預訓練模型。因此在我們可以比較方便地在自己的資料集上進行fine-tune。
下載預訓練模型
對於中文而言,google公佈了一個引數較小的BERT預訓練模型。具體引數數值如下所示:
Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters
模型的下載連結可以在github上google的開原始碼裡找到。對下載的壓縮檔案進行解壓,可以看到檔案裡有五個檔案,其中bert_model.ckpt開頭的檔案是負責模型變數載入的,而vocab.txt是訓練時中文文字採用的字典,最後bert_config.json是BERT在訓練時,可選調整的一些引數。
修改 processor
任何模型的訓練、預測都是需要有一個明確的輸入,而BERT程式碼中processor就是負責對模型的輸入進行處理。我們以分類任務的為例,介紹如何修改processor來執行自己資料集上的fine-tune。在run_classsifier.py
檔案中我們可以看到,google對於一些公開資料集已經寫了一些processor,如XnliProcessor
,MnliProcessor
,MrpcProcessor
和ColaProcessor
。這給我們提供了一個很好的示例,指導我們如何針對自己的資料集來寫processor。
對於一個需要執行訓練、交叉驗證和測試完整過程的模型而言,自定義的processor裡需要繼承DataProcessor,並過載獲取label的get_labels
和獲取單個輸入的get_train_examples
,get_dev_examples
和get_test_examples
函式。其分別會在main
函式的FLAGS.do_train
、FLAGS.do_eval
和FLAGS.do_predict
階段被呼叫。
這三個函式的內容是相差無幾的,區別只在於需要指定各自讀入檔案的地址。
以get_train_examples
為例,函式需要返回一個由InputExample
類組成的list
。InputExample
類是一個很簡單的類,只有初始化函式,需要傳入的引數中guid是用來區分每個example的,可以按照train-%d'%(i)
的方式進行定義。text_a是一串字串,text_b則是另一串字串。在進行後續輸入處理後(BERT程式碼中已包含,不需要自己完成) text_a和text_b將組合成[CLS] text_a [SEP] text_b [SEP]
的形式傳入模型。最後一個引數label也是字串的形式,label的內容需要保證出現在get_labels
函式返回的list
裡。
舉一個例子,假設我們想要處理一個能夠判斷句子相似度的模型,現在在data_dir
的路徑下有一個名為train.csv
的輸入檔案,如果我們現在輸入檔案的格式如下csv形式:
1,你好,您好
0,你好,你家住哪
那麼我們可以寫一個如下的get_train_examples
的函式。當然對於csv的處理,可以使用諸如csv.reader
的形式進行讀入。
def get_train_examples(self, data_dir): file_path = os.path.join(data_dir, 'train.csv') with open(file_path, 'r') as f: reader = f.readlines() examples = [] for index, line in enumerate(reader): guid = 'train-%d'%index split_line = line.strip().split(',') text_a = tokenization.convert_to_unicode(split_line[1]) text_b = tokenization.convert_to_unicode(split_line[2]) label = split_line[0] examples.append(InputExample(guid=guid, text_a=text_a, text_b=text_b, label=label)) return examples
同時對應判斷句子相似度這個二分類任務,get_labels
函式可以寫成如下的形式:
def get_labels(self): reutrn [pre;0','1']
在對get_dev_examples
和get_test_examples
函式做類似get_train_examples
的操作後,便完成了對processor的修改。其中get_test_examples
可以傳入一個隨意的label數值,因為在模型的預測(prediction)中label將不會參與計算。
修改 processor 字典
修改完成processor後,需要在在原本main
函式的processor字典裡,加入修改後的processor類,即可在執行引數裡指定呼叫該processor。
processors = { "cola": ColaProcessor, "mnli": MnliProcessor, "mrpc": MrpcProcessor, "xnli": XnliProcessor, "selfsim": SelfProcessor #新增自己的processor }
執行 fine-tune
之後就可以直接執行run_classsifier.py
進行模型的訓練。在執行時需要制定一些引數,一個較為完整的執行引數如下所示:
export BERT_BASE_DIR=/path/to/bert/chinese_L-12_H-768_A-12 #全域性變數 下載的預訓練BERT地址
export MY_DATASET=/path/to/xnli #全域性變數 資料集所在地址
python run_classifier.py \
--task_name=selfsim \ #自己新增processor在processors字典裡的key名
--do_train=true \
--do_eval=true \
--dopredict=true \
--data_dir=$MY_DATASET \
--vocab_file=$BERT_BASE_DIR/vocab.txt \
--bert_config_file=$BERT_BASE_DIR/bert_config.json \
--init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \
--max_seq_length=128 \ #模型引數
--train_batch_size=32 \
--learning_rate=5e-5 \
--num_train_epochs=2.0 \
--output_dir=/tmp/selfsim_output/ #模型輸出路徑
BERT 原始碼裡還有什麼
在開始訓練我們自己fine-tune的BERT後,我們可以再來看看BERT程式碼裡除了processor之外的一些部分。
我們可以發現,process在得到字串形式的輸入後,在file_based_convert_examples_to_features
裡先是對字串長度,加入[CLS]和[SEP]等一些處理後,將其寫入成TFrecord的形式。這是為了能在estimator裡有一個更為高效和簡易的讀入。
我們還可以發現,在create_model
的函式里,除了從modeling.py
獲取模型主幹輸出之外,還有進行fine-tune時候的loss計算。因此,如果對於fine-tune的結構有自定義的要求,可以在這部分對程式碼進行修改。如進行NER任務的時候,可以按照BERT論文裡的方式,不只讀第一位的logits,而是將每一位logits進行讀取。
BERT這次開源的程式碼,由於是考慮在google自己的TPU上高效地執行,因此採用的estimator是tf.contrib.tpu.TPUEstimator
,雖然TPU的estimator同樣可以在gpu和cpu上執行,但若想在gpu上更高效地做一些提升,可以考慮將其換成tf.estimator.Estimator
,於此同時model_fn裡一些tf.contrib.tpu.TPUEstimatorSpec
也需要修改成tf.estimator.EstimatorSpec
的形式,以及相關呼叫引數也需要做一些調整。在轉換成較普通的estimator後便可以使用常用的方式對estimator進行處理,如生成用於部署的.pb
檔案等。
GitHub Issues 裡一些有趣的內容
從google對BERT進行開源開始,Issues裡的討論便異常活躍,BERT論文第一作者Jacob Devlin也積極地在Issues裡進行回應,在交流討論中,產生了一些很有趣的內容。
在GitHub Issues#95 中大家討論了BERT模型在今年AI-Challenger比賽上的應用。我們也同樣嘗試了BERT在AI-Challenger的機器閱讀理解(mrc)賽道的表現。如果簡單得地將mrc的文字連線成一個長字串的形式,可以在dev集上得到79.1%的準確率。
如果參考openAI的GPT論文裡multi-choice的形式對BERT的輸入輸出程式碼進行修改則可以將準確率提高到79.3%。採用的引數都是BERT預設的引數,而單一模型成績在賽道的test a排名中已經能超過榜單上的第一名。因此,在相關中文的任務中,bert能有很大的想象空間。
在GitHub Issues#123 中,@hanxiao給出了一個採用ZeroMQ便捷部署BERT的service,可以直接呼叫訓練好的模型作為應用的介面。同時他將BERT改為一個大的encode模型,將文字透過BERT進行encode,來實現句子級的encode。此外,他對比了多GPU上的效能,發現bert在多GPU並行上的出色表現。
總結
總的來說,google此次開源的BERT和其預訓練模型是非常有價值的,可探索和改進的內容也很多。相關資料集上已經出現了對BERT進行修改後的複合模型,如squad2.0上哈工大(HIT)的AoA + DA + BERT
以及西湖大學(DAMO)的SLQA + BERT
。 在感謝google這份付出的同時,我們也可以藉此站在巨人的肩膀上,嘗試將其運用在自然語言處理領域的方方面面,讓人工智慧的夢想更近一步。
對NLP領域感興趣的朋友,歡迎投簡歷到 jobs@naturali.io,2018機器閱讀理解技術競賽冠軍團隊期待你的加入!