三分鐘速覽GPT系列原理

iSherryZhang發表於2023-03-28

原文網址 : https://www.cnblogs.com/shuezhang/p/17266646.html

GPT

其中，Transformer和BERT來自Google，GPT系列【GPT、GPT-1、GPT-2、GPT-3、ChatGPT、GPT-4】來自OpenAI。

GPT

Paper名為Improving Language Understanding by Generative Pre-Training，透過生成式預訓練模型來提高語言理解。

GPT，將Transformer的Decoder拿出來，在大量沒有標註的文字資料上進行訓練，得到一個大的預訓練的語言模型。然後再用它在不同子任務上進行微調，最後得到每一個任務所要的分類器。
BERT雖然大家更為熟知，但其實發布晚於GPT，是將Transformer的Encoder拿出來，收集了一個更大的資料集做訓練，取得了比GPT好很多的效果。BERT給了BERT-Base和BERT-Large兩個模型，BERT-Base的模型大小與GPT相當，效果更好，BERT-large模型更大資料效果也更好，下圖是BERT論文[1]中給出的一組對比資料。

我們知道，BERT中使用（1）扣取某個單詞，學習完形填空（2）判斷是否為下一句來學習句子的相關性，兩個任務來使用海量資料進行訓練。
在GPT中，訓練分為無監督的預訓練和有監督的微調，無監督的預訓練使用標準語言模型，給定前i-1個單詞，預測第i個單詞；有監督的微調使用標準交叉熵損失函式。
針對不同的任務，只需要按照下列方式將其輸入格式進行轉換，轉換為一個或多個token序列，然後送入Transformer模型，後接一個任務相關的線性層即可。

GPT-2

之前，大家傾向於為每個任務收集單獨的資料集（single task training on single domain datasets），OpenAI在這篇文章中使用了zero-shot的設定來解決下游任務。

We demonstrate language models can perform down-stream tasks in a zero-shot setting -- without any parameters or architecture modification.

GPT的時候，針對不同的任務構造不同的輸入序列進行微調，這裡直接使用自然語言的方式訓練網路並可以使用到不同的任務上去。

例如，對於一個機器翻譯任務的訓練樣本【translation training example】為：

translate to french, english text, french text

對於閱讀理解訓練樣本【reading comprehension training example】：

answer the question, document, question, answer

這種方法並不是作者首提的，但是作者將其用到了GPT的模型上，並取得了一個相對的效果【如果沒有GPT-3的驚豔效果，估計它也就是一個不怎麼被人所知的工作了】。

從GPT-2開始不再在子任務上做微調，直接使用預訓練模型進行預測，這個是很牛掰的。

GPT-3

GPT-3基於GPT-2繼續做，GPT-2有1.5Billion【15億】的引數量，GPT-3做到了175Billion【1750億】的引數量。

Specififically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specifified purely via text interaction with the model.

摘要中這裡詳述了，GPT-3引數量翻了10倍，同時推理的時候使用了few-shot。對於所有的子任務，都不進行梯度更新，而是純使用few-shot的形式改變輸入。

Finally, we find that GPT-3 can generate samples of news articles which human evaluators have diffificulty distinguishing from articles written by humans.

GPT-3取得了非常經驗的效果，已經能夠寫出人類無法分辨真假的假新聞。

這裡詳述一下zero-shot、one-shot、few-shot：

zero-shot：推理時，輸入包含：任務描述 + 英文單詞 + prompt[=>]
one-shot：推理時，輸入包含：任務描述 + 一個例子 + 英文單詞 + prompt[=>]
few-shot：推理時，輸入包含：任務描述 + 多個例子 + 英文單詞 + prompt[=>]

Reference

[1] Devlin, Chang, Lee, and Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In ACL, 2019.
[2] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving language under standing with unsupervised learning. Technical report, OpenAI. [GPT]
[3] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Language models are unsupervised multitask learners, 2019. [GPT-2]
[4] Brown, Tom B. et al. “Language Models are Few-Shot Learners.” ArXiv abs/2005.14165 (2020): n. pag. [GPT-3]
[5] 沐神 GPT，GPT-2，GPT-3 論文精讀【論文精讀】

Hive基礎語法5分鐘速覽
2020-12-14
Hive
三分鐘瞭解弧幕投影的製作原理
2023-03-27
外國玩家都在玩哪些中國遊戲？三分鐘速覽美日韓最流行的國產手遊
2019-11-27
遊戲
每週要聞速遞｜三分鐘帶您瀏覽本週企業計算領域大事件
2022-02-25
事件
（三分鐘系列）詳解Redis字串內部結構
2018-09-10
Redis字串
三分鐘：極速體驗JAVA版目標檢測(YOLO4)
2022-01-12
JavaYOLO
react比vue難？vuer10分鐘速覽react
2018-12-01
ReactVue
JVM系列(一)：jvm啟動過程速覽
2021-02-07
JVM
每週要聞速遞｜三分鐘帶您瀏覽本週企業計算領域大事件（3.7-11）
2022-03-11
事件
【3分鐘速覽】前端廣播式通訊：Broadcast Channel
2019-04-01
前端AST
三分鐘搞懂桶排序
2020-07-29
排序
三分鐘搞懂CSS 權重
2018-12-16
CSS
三分鐘爬蟲入門
2020-05-18
爬蟲
三分鐘瞭解互動滑軌屏的實現原理與應用
2022-06-07
瀏覽器原理系列10篇正式完結
2019-02-20
瀏覽器
三分鐘帶你理解JS原型
2019-02-21
JS原型
三分鐘搞定 Springboot 和Swagger 整合
2018-07-25
Spring BootSwagger
三分鐘學會《門面模式》
2018-12-30
模式
三分鐘學會門面模式！
2018-12-28
模式
【3分鐘速覽】如何“嚴謹地”判斷兩個變數是否相同
2020-01-08
變數
三分鐘瞭解架構的起源
2018-11-20
架構
【譯】三分鐘掌握 React 高階元件
2019-05-16
React元件
三分鐘上手openldap帳號系統
2019-06-09
LDA
三分鐘掌控Actor模型和CSP模型
2022-03-26
模型
三分鐘深入瞭解Spring底層
2020-11-29
Spring
ML.NET速覽
2018-11-18
PHP 8.2 更新速覽
2022-12-09
PHP
HTML5 速覽
2020-12-06
HTML
（三分鐘系列）詳解Redis中列表（List）的使用方法和內部結構
2018-09-11
Redis
三分鐘快速理解javascript記憶體管理
2019-03-04
JavaScript記憶體
三分鐘看懂插入排序演算法
2019-01-20
排序演算法
使用Netty三分鐘手寫一個RPC
2019-03-30
NettyRPC
三分鐘用 Laravel 實現 API 開發
2018-09-18
LaravelAPI
漫畫：三分鐘瞭解敏捷開發
2018-05-03
敏捷
三分鐘學會 SegmentFault 格子廣告投放
2018-05-31
三分鐘搞定nodejs基礎API之Path
2019-09-21
NodeJSAPI
三分鐘秒懂BIO/NIO/AIO區別？
2020-08-12
AI
三分鐘快速解析GraphQL基本工作思路！
2020-11-11

三分鐘速覽GPT系列原理

GPT

GPT-2

GPT-3

Reference

相關文章