作為2018年自然語言處理領域的新秀,BERT做到了過去幾年NLP重大進展的集大成,一出場就技驚四座碾壓競爭對手,重新整理了11項NLP測試的最高紀錄,甚至超越了人類的表現,相信會是未來NLP研究和工業應用最主流的語言模型之一。本文嘗試由淺入深,為各位看客帶來優雅的BERT解讀。
除了OCR、語音識別,自然語言處理有四大類常見的任務。第一類任務:序列標註,譬如命名實體識別、語義標註、詞性標註、分詞等;第二類任務:分類任務,譬如文字分類、情感分析等;第三類任務:句對關係判斷,譬如自然語言推理、問答QA、文字語義相似性等;第四類任務:生成式任務,譬如機器翻譯、文字摘要、寫詩造句等。
GLUE benchmark:General Language Understanding Evaluation benchmark,通用語言理解評估基準,用於測試模型在廣泛自然語言理解任務中的魯棒性。
BERT重新整理了GLUE benchmark的11項測試任務最高記錄,這11項測試任務可以簡單分為3類。序列標註類:命名實體識別CoNNL 2003 NER;單句分類類:單句情感分類SST-2、單句語法正確性分析CoLA;句對關係判斷類:句對entailment關係識別MNLI和RTE、自然語言推理WNLI、問答對是否包含正確答案QNLI、句對文字語義相似STS-B、句對語義相等分析QQP和MRPC、問答任務SQuAD v1.1。雖然論文中沒有提及生成式任務,BERT核心的特徵提取器源於谷歌針對機器翻譯問題所提出的新網路框架Transformer,本身就適用於生成式任務。