復旦邱錫鵬超全NLP預訓練模型綜述論文:兩張圖帶你梳理完整脈絡

機器之心發表於2020-03-20

復旦邱錫鵬超全NLP預訓練模型綜述論文:兩張圖帶你梳理完整脈絡


自從 BERT 橫空出世以後,儘管算力要求比較大,但預訓練語言模型仍層出不窮,有點類似當年 GAN 大量更新的盛況。雖然只過去了一兩年,但形形色色的預訓練語言模型確實讓我們弄不清楚整體狀況到底是什麼樣的。

我們知道 BERT、ALBERT、XLNet 等眾多優秀模型,但它們之間的關係、差別、分類到底是什麼樣的?這還是主流模型,如果沒讀過具體論文,我們是很難分清楚的,對於更多的變體與擴充套件,基本上就無能為力了。但近日復旦大學邱錫鵬等研究者發了一篇論文,它以兩張圖詳細展示了預訓練語言模型的現狀與分類。

復旦的這篇綜述性論文非常豐富,它以 25 頁的篇幅展示了預訓練語言模型的方方面面,不論是新奇的預訓練任務,還是各種模型針對領域知識的擴充套件,我們都能快速 Get 到。

論文:Pre-trained Models for Natural Language Processing: A Survey
論文地址:https://arxiv.org/pdf/2003.08271.pdf

具體而言,以邱錫鵬為第一作者的研究者們對用於 NLP 的預訓練模型進行了全面的回顧,文章體結構如下:

  • 首先簡要介紹了語言表示學習及相關研究進展;

  • 其次從四個方面對現有 PTM 進行系統分類(Contextual、Architectures、Task Types、Extensions);

  • 再次描述瞭如何將 PTM 的知識應用於下游任務;

  • 最後展望了未來 PTM 的一些潛在發展方向。


研究者表示,本文旨在為讀者理解、使用和開發適用於不同 NLP 任務的預訓練模型提供一份實用指南,這篇論文在機器學習社群上也得到了很廣泛的響應。

復旦邱錫鵬超全NLP預訓練模型綜述論文:兩張圖帶你梳理完整脈絡

相關文章