XLNet 第一作者楊植麟：為什麼預處理模型XLNet比BERT、RoBERTa更加優越

迴圈智慧發表於2020-03-27

原文網址 : https://www.jiqizhixin.com/articles/2020-03-27-10

在2020年2月11日下午的“智源論壇Live | 青年科學家線上報告會”中，智源青年科學家、迴圈智慧（Recurrent AI）聯合創始人楊植麟做了題為《Latest Advances of Neural Language Models》的主題演講。

楊植麟，2019年博士畢業於卡內基梅隆大學，師從蘋果AI負責人Ruslan Salakhutdinov，他曾與圖靈獎得主Youshua Bengio、Yann LeCun合作發表論文，本科畢業於清華大學，導師為智源學者唐傑教授。楊植麟在自然語言理解、半監督學習等30多個資料集上取得歷史最好結果（State-of-the-Art，SOTA）。

在本次演講中，楊植麟系統解析了他的最新代表作品——XLNet。XLNet是由CMU和Google Brain Team攜手提出的自然語言處理預訓練框架，楊植麟作為核心研究成員，以第一作者的身份在NIPS 2019上發表了關於XLNet的論文[1]。XLNet 如今已經是NLP領域近年來最被關注的模型之一，它在18 項NLP任務中拿到最優成績（SOTA），包括機器問答、自然語言推斷、情感分析和文件排序等。

在演講中，楊植麟抽絲剝繭般回顧了他設計XLNet時一步步的思考歷程，從融合自迴歸語言模型，到納入降噪自編碼模型的優點，再到引進雙流自注意力機制等，這些創新最終使得XLNet和Google BERT[2]、Facebook RoBERTa [3]模型的對比實驗中取得了優異的成績。此外，楊植麟還展望了對AI資料模型的趨勢性看法，見解獨到，相信會給大家帶來很多啟迪。

下面是楊植麟演講的精彩要點。

一、NLP預訓練模型近年來的發展

在進入XLNet設計框架之前，楊植麟首先介紹一些相關的前置知識，簡介了NLP預訓練模型近年來的發展。在NLP領域，可以將訓練資料分為兩類：一類是有標註資料，即每條資料的類別都經過了人工標註；另一類為無標註資料，也就是無預先人工標註的原始資料。有標註資料因為增加了人工預處理流程，一般會取得比較好的表現，但缺陷是成本比較高，這便導致現存的訓練資料一般是由大量無標註資料和少量有標註資料構成。在這樣的背景下，NLP學者們便開始提出先無監督預訓練、後有監督微調的模型訓練正規化。

率先出現的是詞嵌入模型，典型代表如2013年Mikolov等人提出的Word2Vec[4]、2014年Pennington等人提出的GloVe[5]等，它們可謂是無監督預訓練模型的雛形。但詞嵌入模型的問題在於一個單詞只能對應一個詞向量，即在不同的上下文中，同一個詞的編碼是相同的，這使得語言的一詞多義問題無法得到解決。於是學術界開始著力探索基於上下文的預訓練模型，尤其是2018年下半年至2019年上八年間湧現了一批代表，包括：Peters等人提出的ELMo [6]、Radford等人提出的GPT系列[7，8]，Devlin等人提出的BERT等。值得一提的是，這些預訓練模型的內部元件也在不斷改進中：ELMo由迴圈神經網路LSTM組成，GPT系列、BERT則由基於自注意力機制的Transformer[9]組成，而Tansformer的改進模型——Tansformer-XL[10]，也是楊植麟本人核心參與的代表性作品。

專訪XLNet作者楊植麟：“人機耦合”將是對話語義應用的新趨勢
2020-04-13
XLNet團隊：只要公平對比，BERT毫無還手之力
2019-07-23
Roberta: Bert調優
2020-09-30
重回榜首！Facebook開源加強版BERT，全面超越XLNet
2020-04-06
XLNet預訓練模型，看這篇就夠了！(程式碼實現)
2019-09-30
模型
原蘋果首任AI負責人、楊植麟導師Russ領隊Meta Agent研究，WebArena作者加盟
2024-09-04
蘋果AIWeb
【BERT】你儲存的BERT模型為什麼那麼大？
2020-03-13
模型
百度開源自然語言理解模型 ERNIE 2.0，16 個 NLP 任務中碾壓 BERT 和 XLNet！
2019-08-06
模型
深度對話楊植麟博士：NLP科研和創業的方法論
2020-12-25
創業
為什麼Web前端變的越來越複雜，變得更加難學了
2019-10-18
Web前端
為什麼獨立伺服器越來越受到公司的喜歡？比共享主機有什麼優勢
2019-09-17
伺服器
關於某個復現XLNet的廣告文案
2021-01-01
百度正式釋出ERNIE 2.0，16項中英文任務超越BERT、XLNet，重新整理SOTA
2019-07-31
java事件處理模型是什麼
2021-09-11
Java事件模型
為什麼處理排序陣列比未排序陣列快
2018-11-30
排序陣列
PyTorch預訓練Bert模型
2020-11-17
PyTorch模型
sql 預處理為什麼可以放置SQL隱碼攻擊
2019-01-12
SQL
從Word Embedding到Bert模型——自然語言處理預訓練技術發展史
2018-12-10
模型自然語言處理
為什麼機器學習模型會越來越糟？ - Santiago
2021-05-27
機器學習模型Go
為什麼說 Bert 大力出奇跡？
2018-11-21
switch健身環?為什麼越炒越“香”?
2020-02-13
為什麼前端工作越來越難找了?
2019-03-30
前端
為什麼女性內衣越來越貴？
2022-05-18
從Word Embedding到Bert模型—自然語言處理中的預訓練技術發展史
2018-11-19
模型自然語言處理
撞車DeepSeek NSA，Kimi楊植麟署名的新注意力架構MoBA釋出，程式碼也公開
2025-02-19
架構
為什麼？為什麼？Java處理排序後的陣列比沒有排序的快？想過沒有？
2020-08-17
Java排序陣列
Java找工作為什麼越來越難，有什麼技巧嘛？
2019-04-01
Java
為什麼媒介環境越複雜，廣告主的預算分配越簡化？
2019-12-04
模型預處理層介紹（1） - Discretization
2023-02-14
模型
產品經理為什麼越來越不值錢？不懂資料，只能尷尬退場
2021-05-26
為什麼UDP有時比TCP更有優勢？
2019-08-27
UDPTCP
雙11規則為什麼越來越複雜？
2020-11-12
為什麼線上辦公套件越來越流行
2021-07-03
套件
為什麼專案管理平臺越來越普及？
2021-03-29
專案管理
比亞迪越來越像華為？
2022-06-30
模型訓練：資料預處理和預載入
2020-10-27
模型
為什麼說流處理即未來？\n
2019-04-10
為什麼前端工程越來越愛使用 Monorepo 架構？
2021-12-20
前端Mono架構

XLNet 第一作者楊植麟：為什麼預處理模型XLNet比BERT、RoBERTa更加優越

一、NLP預訓練模型近年來的發展

相關文章