[筆記] ELMO, BERT, GPT 簡單講解 - 李宏毅

sinatJ發表於2023-04-28

原文網址 : https://www.cnblogs.com/zishu/p/17363205.html

國內影片地址：https://www.bilibili.com/video/BV17441137fa/?spm_id_from=333.880.my_history.page.click&vd_source=bda72e785d42f592b8a2dc6c2aad2409

1 NLP 基礎

1.1 詞的表示過程演進：

one-hot 編碼
詞袋模型
word embedding

1.2 multiple sense

1）明確兩個概念：token 和 type

type：形式
token：含義

例如 bank 有很多不同的（token）含義（銀行、河岸等），但它們都有著相同的（type）形式。

2）考慮到上面的問題，現在的 embedding 做法是為每個 token 提供一個 word embedding

然後具有相近語義的 token 也具有較為接近的 embedding 距離。

1.3 如何 embedding

1）基於 RNN 的 ELMO

最終我們取 hidden layer 層的向量做為 token 的 embedding。
或者更進一步，透過 weight 將所有的輸出進行加權求和：

2）基於 Bert

Bert 基於 Transformer，關於 transformer 可以參考：

https://zhuanlan.zhihu.com/p/526155983

https://zhuanlan.zhihu.com/p/526694027

bert 的原理可能無法一直記得很清楚，但我們只需要記得 bert 的作用，簡單來說可以理解為 transformer 中的 encoder，給定一個句子（或詞彙），輸出該句子（或詞彙）的 embedding 表示：

注意：這裡圖片中中文的例子是用“詞”作為輸入，但是更推薦用中文的 “字”作為輸入，因為中文的“字”是有限的，而“詞”理論上是無窮的，這會導致編碼空間非常大。

2 BERT 介紹

2.1 背景

可以參考上面 1.3 節 2）。

2.2 如何訓練 Bert

1）方法一：Masked Language Model（Masked LM）

採用對輸入進行 mask 讓其重建來訓：

將輸入的某個詞 mask 掉，然後取其輸出 embedding，丟入一個 multi-class classifier 中，要求其預測出現在被 mask 掉的那個詞彙是哪個詞彙
由於 linear classifier 的分類能力較弱，所以 BERT 就需要輸出一個表徵能力比較好的 embedding，這樣就巧妙的獲取了對特定詞的良好的 embedding
另一個好處是相似的詞，在這種訓練框架下，也能獲得距離較近的 embedding 表徵

2）方法二：Next sentence Prediction

採用預測兩個句子是否能連成一個句子：

在兩個句子間加一個特殊符號 [SEP] 標識告訴模型這是兩個句子
在開頭加一個特殊符號 [CLS] 告訴模型接下來做的是分類任務，就是預測是否能組成一個句子
這裡注意：由於 BERT 的內部是 transformer 架構，使用 self-attention 機制使得任意兩個輸入向量之間的距離是一樣的，所以任務標識可以放在開頭。如果單向 RNN 結構，則需要放在末尾。
同上一節一樣，linear classifier 的分類能力有限，這也會促使 BERT 去產生更好的 embedding

3）小結

通常情況下，上面這兩種方式在訓練 BERT 時是一起使用的，讓 BERT 同時去解這兩個任務時，它會學的更好。

2.3 How to use Bert

在 BERT 的論文中，作者其實時將 BERT model 模組本身和下游任務一起訓練的（當然 bert 大部分情況下都是 fine-tune），為此舉了四個例子來展示如何實現訓練和使用

1）case 1：sentence classification

輸入：句子
輸出：預測類別

下游任務是文字分類，由 Linear Classifier 模組表示，這個部分是透過隨機初始化引數，從頭開始學的
文字表徵（embedding）模組主要就是 BERT，這部分是 Fine-tune 形式參與訓練的

2）case 2：each word insentence classification

輸入：句子
輸出：句子中每個詞的預測類別

Linear Cls 是下游任務模組，從頭訓
Bert 採用 fine-tune 方式
訓練時需要給定當前句子以及當前句子中每個詞的類別

3）case 3：Nature Language Inference（推理）

輸入：兩個句子，一個作為前提（A），一個作為假設結論（B）
輸出：預測類別，即判斷以 A 作為前提的情況下，B 假設是否成立（T、F or unknown）

sentence 1 作為 premise，採用 [SEP] 與 sentence 2 作為 hypothesis 分隔開；
第一個位置用於 CLS；

4）case 4：Extraction-base Question（抽取文章用於回答，QA）

先介紹這個 case 吧：

通常情況下，這類問題期望我們輸入一篇文章給 Model，然後根據我們的 question 由 model 抽取出答案。

注意：這裡面有個限制就是 answer 是要在文章中出現過的，比如上圖第一個問題的回答 gravity 就在文章中出現過。

這個問題的結構化表示如上圖，定義文章 Document 由一系列 token 組成（\(\{d_1, d_2, ..., d_N\}\))，其中 \(d_i\)即表示第 i 個 token，同理問題 Query 也用此方式表示。

接下來，我們將 D 和 Q 作為輸入送入 Model，模型會輸出來兩個整數 s、e，分表代表回答內容在 Document 中的起始位置。例如上面第一個問題，答案 gravity 在 D 中的位置區間就是 17-17（第17個單詞到第17個單詞）。

那麼，BERT 中如何解這個問題呢？

首先，將 question 和 document 拼接作為 BERT 的輸入
接兩個網路層分別產出兩個向量（下圖中紅色、藍色），這兩個向量和 BERT 輸出的 embedding 向量具有相同的 size
先將紅色向量與 document 中每個輸出 token 進行點乘（dot product），結果過 softmax，得到每個 token 的機率表徵，取其中最大的作為 s 輸出（例如圖1中第二個 token 的機率最大，所以 s=2）
再將藍色向量與 document 中每個輸出 token 進行點乘，過 softmax 後，取機率最大的位置作為 e 的輸出
最後的答案就由 s、e 來進行定位

s、e 任務的點乘向量與 token 的 Embedding 向量維度一致
如果 s、e 不滿足正常情況（s<=e），此種情況作為“此題無解”輸出
Bert 採用 fine-tune，紅、藍向量從頭開始訓

2.4 for chinese：ERNIE

ERNIE 是為中文設計的 BERT，其採用的訓練方式有一點不一樣，因為 BERT 採用對單個字進行 mask，但這在中文中是很容易被猜出來的，所以其採用了 mask 詞的方式進行訓練。

這裡只是提一嘴，更具體的還是看論文吧：https://arxiv.org/abs/1904.09223

2.5 BERT 每層的側重

常用 Bert 為 24 層，nlp 任務其實是一個 pipiline 任務，從語言學的角度上來說，對一個句子的分析通常包含詞法分析、語法分析、語義分析等過程，這張圖就展示了在不同任務上，Bert 的不同層所佔的權重大小（也即哪些層的輸出在這些特定任務上的表現更好）：

這啟發我們，可以根據 nlp 任務的不同特性來選擇使用 bert 不同層抽象出來的 token embedding 進行使用，例如對於 POS 任務來說，第 11-13 層的權重較大，其 hidden embedding 效果較好。

3 GPT-2

Generative Pre-Training（GPT）本質上就是一個巨大無比的 language model，其底層採用的是 transformer 的 Decoder 模組。

3.1 GPT 的訓練

訓練模式和 bert 類似，輸入一個句子的開始標誌、當前詞彙，預測下一個詞彙
每個詞彙過 self-attention，其 query 輸出和前面的詞的 key 輸出做權重計算，同時也和自己的 key 做權值計算，最後將所有計算結果做 sum。注意這裡通常是過好幾層 self-attention 層，猜得到最終的輸出，最終的輸出其實是一個 embedding。

3.2 zero-shot

GPT 是非監督學習，採用 zero-shot 方式進行訓練。即使是在這種缺失監督資訊的情況下，仍然能奇蹟般的泛化出對某些任務的解題能力，這是比較神奇的。

Reading Comprehension：只透過輸入文章表徵、query 表徵，然後接上 "A:" 提示標誌，GPT 就會自動的給出該 query 的回答，上圖折線是不同引數（橫軸）下 GPT 的 F1（縱軸）指標效果；
Summarization：類似的，給出文章表徵和特定 "TL;DR:" 提示標誌，就會得到摘要；
Translation：給出前兩個如上圖所述的正規化，再給出第三行正規化，就會自動的得到對應的法語翻譯結果（但是這個任務的效果很差）；

Datawhale X 李宏毅蘋果書 AI夏令營 Task2筆記
2024-08-31
蘋果AI筆記
Datawhale X 李宏毅蘋果書 AI夏令營 Task1.2 筆記
2024-08-27
蘋果AI筆記
Datawhale X 李宏毅蘋果書 AI夏令營task1筆記
2024-08-24
蘋果AI筆記
【機器學習】李宏毅——Transformer
2022-12-18
機器學習ORM
【機器學習】李宏毅——Unsupervised Learning
2022-12-21
機器學習
李巨集毅深度學習筆記(四)
2020-12-10
深度學習筆記
《李宏毅機器學習完整筆記》釋出，Datawhale開源專案LeeML-Notes
2019-08-07
機器學習筆記
李巨集毅機器學習課程筆記-3.梯度下降精講
2020-12-27
機器學習筆記梯度
【機器學習】李宏毅——機器學習基本概念簡介
2022-12-14
機器學習
【機器學習】李宏毅——線性降維
2022-12-16
機器學習
李巨集毅機器學習-學習筆記
2018-11-13
機器學習筆記
【機器學習】李宏毅——Flow-based Generative Models
2022-12-22
機器學習
【機器學習】李宏毅——何為反向傳播
2022-12-15
機器學習反向傳播
李巨集毅深度學習筆記（七）Auto-encoder
2021-01-01
深度學習筆記
【機器學習】李宏毅——Adversarial Attack（對抗攻擊）
2022-12-23
機器學習
【機器學習】李宏毅——自監督式學習
2022-12-19
機器學習
【機器學習】李宏毅——Anomaly Detection（異常檢測）
2022-12-20
機器學習
【機器學習】李宏毅——Explainable ML(可解釋性的機器學習)
2022-12-22
機器學習AI
李宏毅2022機器學習HW4 Speaker Identification下
2024-03-02
機器學習IDE
Datawhale X 李宏毅蘋果書 AI夏令營 task2
2024-08-24
蘋果AI
【機器學習】李宏毅——Domain Adaptation(領域自適應)
2022-12-23
機器學習AIAPT
【機器學習】李宏毅——機器學習任務攻略
2022-12-14
機器學習
【機器學習】李宏毅——生成式對抗網路GAN
2022-12-18
機器學習
【機器學習】李宏毅——AE自編碼器(Auto-encoder)
2022-12-20
機器學習
3年、40次演講、14萬字，李彥宏的AI簡史
2019-10-31
AI
2、實踐方法論（Datawhale X 李宏毅蘋果書 AI 夏令營）
2024-09-03
蘋果AI
【機器學習】李宏毅——自注意力機制(Self-attention)
2022-12-16
機器學習
【機器學習】李宏毅——Recurrent Neural Network(迴圈神經網路)
2022-12-17
機器學習神經網路
Datawhale X 李宏毅蘋果書AI夏令營 Task3打卡
2024-09-03
蘋果AI
Datawhale X 李宏毅蘋果書AI夏令營深度學習進階(三)
2024-09-02
蘋果AI深度學習
Datawhale X 李宏毅蘋果書AI夏令營 Task2打卡
2024-08-31
蘋果AI
Datawhale X 李宏毅蘋果書AI夏令營深度學習進階(二)
2024-08-30
蘋果AI深度學習
李巨集毅機器學習課程筆記-4.1分類簡介及其與迴歸的區別
2021-01-17
機器學習筆記
【機器學習】李宏毅——淺談機器學習原理+魚與熊掌兼得的深度學習簡述
2022-12-15
機器學習深度學習
BERT 論文筆記
2019-01-18
筆記
李宏毅2022機器學習HW4 Speaker Identification上(Dataset &Self-Attention)
2024-03-01
機器學習IDE
Datawhale X 李宏毅蘋果書 AI夏令營:task1透過案例瞭解機器學習
2024-08-27
蘋果AI機器學習
多型簡單講解
2020-11-15
多型