在2020年2月11日下午的“智源論壇Live | 青年科學家線上報告會”中,智源青年科學家、迴圈智慧(Recurrent AI)聯合創始人楊植麟做了題為《Latest Advances of Neural Language Models》的主題演講。
楊植麟,2019年博士畢業於卡內基梅隆大學,師從蘋果AI負責人Ruslan Salakhutdinov,他曾與圖靈獎得主Youshua Bengio、Yann LeCun合作發表論文,本科畢業於清華大學,導師為智源學者唐傑教授。楊植麟在自然語言理解、半監督學習等30多個資料集上取得歷史最好結果(State-of-the-Art,SOTA)。
在本次演講中,楊植麟系統解析了他的最新代表作品——XLNet。XLNet是由CMU和Google Brain Team攜手提出的自然語言處理預訓練框架,楊植麟作為核心研究成員,以第一作者的身份在NIPS 2019上發表了關於XLNet的論文[1]。XLNet 如今已經是NLP領域近年來最被關注的模型之一,它在18 項NLP任務中拿到最優成績(SOTA),包括機器問答、自然語言推斷、情感分析和文件排序等。
在演講中,楊植麟抽絲剝繭般回顧了他設計XLNet時一步步的思考歷程,從融合自迴歸語言模型,到納入降噪自編碼模型的優點,再到引進雙流自注意力機制等,這些創新最終使得XLNet和Google BERT[2]、Facebook RoBERTa [3]模型的對比實驗中取得了優異的成績。此外,楊植麟還展望了對AI資料模型的趨勢性看法,見解獨到,相信會給大家帶來很多啟迪。
下面是楊植麟演講的精彩要點。
一、NLP預訓練模型近年來的發展
在進入XLNet設計框架之前,楊植麟首先介紹一些相關的前置知識,簡介了NLP預訓練模型近年來的發展。在NLP領域,可以將訓練資料分為兩類:一類是有標註資料,即每條資料的類別都經過了人工標註;另一類為無標註資料,也就是無預先人工標註的原始資料。有標註資料因為增加了人工預處理流程,一般會取得比較好的表現,但缺陷是成本比較高,這便導致現存的訓練資料一般是由大量無標註資料和少量有標註資料構成。在這樣的背景下,NLP學者們便開始提出先無監督預訓練、後有監督微調的模型訓練正規化。
率先出現的是詞嵌入模型,典型代表如2013年Mikolov等人提出的Word2Vec[4]、2014年Pennington等人提出的GloVe[5]等,它們可謂是無監督預訓練模型的雛形。但詞嵌入模型的問題在於一個單詞只能對應一個詞向量,即在不同的上下文中,同一個詞的編碼是相同的,這使得語言的一詞多義問題無法得到解決。於是學術界開始著力探索基於上下文的預訓練模型,尤其是2018年下半年至2019年上八年間湧現了一批代表,包括:Peters等人提出的ELMo [6]、Radford等人提出的GPT系列[7,8],Devlin等人提出的BERT等。值得一提的是,這些預訓練模型的內部元件也在不斷改進中:ELMo由迴圈神經網路LSTM組成,GPT系列、BERT則由基於自注意力機制的Transformer[9]組成,而Tansformer的改進模型——Tansformer-XL[10],也是楊植麟本人核心參與的代表性作品。