目前兩種最重要的預訓練語言模型，一種是前面介紹過的BERT，另外一種就是GPT。

GPT出了兩個版本，GPT1.0和GPT2.0，GPT2.0相對於GPT1.0差別不大，可以認為是它的增強版。本篇介紹GPT1.0和GPT2.0，看看它於BERT有什麼不一樣。

作者 | 小Dream哥

編輯 | 言有三

1 GPT是什麼

General Pre-Training(GPT)，即通用預訓練語言模型，是一種利用Transformer作為特徵抽取器，基於語言模型進行訓練的預訓練語言模型。

所以，理解GPT主要熟悉兩個方面即可，即語言模型和其由Transformer組成的結構。

2 語言模型

一個語言模型通常構建為一句話的概率分佈p(W)，這裡的p(W)實際上反映的是W作為一個句子出現的概率。說成大白話，語言模型就是計算某個句子出現的概率。

對於一個由T個詞按順序構成的句子，P(W)實際上求解的是字串的聯合概率，利用貝葉斯公式，鏈式分解如下：

從上面可以看到，一個統計語言模型可以表示成，給定前面的的詞，求後面一個詞出現的條件概率。

我們在求P(W)時實際上就已經建立了一個模型，這裡的諸多條件概率就是模型的引數。如果能夠通過語料，將這些引數都學習到，就能夠計算出一個句子出現概率。

GPT的預訓練過程就是利用語料，構造訓練資料，利用上述語言模型，不斷預測，學習引數的過程。

上述介紹了GPT如何利用無監督語料和語言模型構建任務進行訓練。那麼GPT的網路模型結構長什麼樣呢？訓練過程優化的網路，是個怎麼樣的網路呢？我們來看看。

GPT中引入的是Transformer中的解碼器部分，結構如下圖所示：

解碼器與編碼器的差異在於self-attention層上，解碼器加了一層掩碼，這是為了在自注意力計算的時候遮蔽了來自當前計算位置右邊所有單詞的資訊。試想一下，在上述語言模型中，如果在預測下一個詞時，已經知道下一個詞的資訊了，這不是作弊嗎？這一點是與BERT這種雙向結構不同的地方。

如上圖所示，GPT就是由12個這樣的解碼器堆疊而成，如果看過之前我們分析BERT文章的同學，對這種結構的理解，應該會遊刃有餘了。

這裡還值得一說的是下游任務如何基於GPT預訓練之後進行Finetune。以分類為例，只需在樣本前後分別加上Start和Extract符號，然後輸入GPT，再接上分類器即可進行Finetune或者預測了。怎麼樣？是不是非常的省心？

其實相對於GPT1.0在模型結構和訓練模式上並沒有本質的區別，GPT2.0僅僅是加大了模型結構和訓練語料的規模。

GPT2.0使用了約 1000 萬篇文章的資料集，文字集合達 40GB。這樣訓練出來的語言模型優勢很明顯，比使用專有資料集來的通用性更強，更能理解語言和知識邏輯，可以用於任意領域的下游任務。

還有一個變化是，在GPT2.0中，OpenAI沒有再強調Finetune，也就說，OpenAI認為，只要模型能力夠強，語料夠好覆蓋面夠廣，Finetune的過程其實不是必要的。

GPT，特別是GPT2.0是一個大型無監督語言模型，能夠生產連貫的文字段落，在許多語言建模基準上取得了 SOTA 表現。而且該模型在沒有任務特定訓練的情況下，能夠做到初步的閱讀理解、機器翻譯、問答和自動摘要。

OpenAI非常的倔強，一直沿用單向語言模型的思路。這個特點讓GPT2.0的語言生成能力令人驚歎。GPT和BERT是目前為止影響力最大的兩種預訓練語言模型，至今為止，勝負還沒有定論，我們且關注。

GPT是一種非常重要而且成功的預訓練語言模型，後續openAI肯定還會繼續更新他們的工作，對NLP從業者來說，這是非常值得期待的事情，我們拭目以待。

https://www.toutiao.com/a6729416650614899214/

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/69946223/viewspace-2655241/，如需轉載，請註明出處，否則將追究法律責任。