Azure OpenAI 官方指南 01|GPT-3 的原理揭秘與微調技巧

微軟技術棧發表於2023-03-03

圖片

Azure OpenAI 服務在微軟全球 Azure 平臺正式釋出後,迅速成為眾多使用者最關心的服務之一。

Azure OpenAI 服務允許使用者透過 REST API 訪問 OpenAI 的強大語言模型,包括 GPT-3、Codex 和 Embeddings 模型系列。本期,我們將為您揭秘 Azure OpenAI 的“屠榜”神器——GPT-3 的原理與使用技巧

GPT-3的底層演算法 ╱ 01
GPT-3的四種模型 ╱ 02
在Azure OpenAI中使用GPT-3 ╱ 03
OpenAI API元件選擇 ╱ 04
自定義模型 ╱ 05
Fine-Tuning(微調) ╱ 06
GPT-3的企業級使用場景 ╱ 07

GPT-3 的底層演算法

GPT-3 全稱“Generative Pre-trained Transformer - 3”, 引數高達 1750“億”個,是微軟和 OpenAI 聯合推出的超級人工智慧。

簡單地說,GPT-3 作為一個自監督模型,幾乎可以完成自然語言處理的絕大部分任務。GPT-3 本質上是一個預訓練自然語言處理模型,能夠同時完成自然語言理解、文字生成、文字總結、自動問答、機器翻譯、算術運算和程式碼生成等多種任務。GPT-3 的面世有望幫助開發者更加快速地構架和部署自然語言處理應用程式,也拓寬了更多不同領域不同知識背景的使用者使用 AI 模型的可能性。

GPT 系列作為 OpenAI 開發的一系列大型預訓練語言模型,是基於 Transformer 演算法的複雜堆疊、超大量的訓練語料與數以億計的模型引數訓練出的一系列生成式預訓練語言模型

與傳統的自然語言處理(NLP)有監督模型不同,GPT 先透過充滿多樣性的大量資料進行無監督預訓練,然後再將帶有標籤的資料集給入預訓練模型中進行有監督微調。GPT 強化了模型從大量無標籤原始文字中學習語言或語義本身的能力,並在模型有廣泛語言學能力的基礎上提供部分有標籤資料對特定任務進行微調。這一方面解決了大多數 NLP 任務中高質量標籤資料量少的問題,另一方面建立了一個真正從語言學角度理解自然語言的模型。

GPT-3 作為 GPT 系列的第三代模型,是 Transformer 演算法在 800 萬網頁資料集的基礎上訓練而成的。GPT-3 與前兩代模型相比,在模型引數量以及預訓練資料量上進行了幾百倍的擴充,從 GPT-2 的 15 億引數與 40GB 資料量擴充套件到了如今的 1750 億引數與 45 TB 的預訓練資料。這在很大程度上增強了 GPT 系列在語言理解能力上的提升,形成了現如今爆紅的 GPT-3 服務,併為後續的 ChatGPT 等生成式自然語言模型提供基礎。

GPT-3 的四種模型

OpenAI 提供四種主要的 GPT-3 模型。其中 Davinci 是功能最強大的模型,Ada 是速度最快的模型。以下詳細介紹了每種模型的特點以及適用場景:

image.png

image.png

image.png

image.png

雖然通常情況下 Davinci 是功能最強大的 GPT-3 模型,但其它模型也能夠非常出色地執行某些任務,並且有著明顯的速度或者成本優勢。比如,Curie 模型也可以執行許多與 Davinci 相同的任務,但速度更快,並且成本僅為 Davinci 的十分之一

模型選擇建議

當我們在選擇模型時,最好是在實驗階段先使用 Davinci, 確保我們能使用 GPT-3 先得到一個最好的結果,明確正確的使用方向。一切正常之後,我們就可以繼續嘗試其它模型,看看是否能以更低的延遲和更優的成本選擇獲得相同的結果。

有大量優質(指人工稽核/達標的)資料的情況下,建議選擇低複雜度的模型,精度或許能媲美 Davinci,且 ROI 更高。

如果是分類/歸納這類相對簡單的任務,建議選擇 Ada 模型。

如果資料量不大(幾百)或質量不保證(如未經校準的資料)的情況下,建議選擇 Davinci 模型。

在 Azure OpenAI 服務中使用 GPT-3

Azure GPT-3 Playground 的使用介面非常簡潔,我們只需要在文字框中輸入提示語或需要 GPT-3 分析的內容,等待 GPT-3 根據提示返回相應結果即可。

圖片

如圖所示,我希望 GPT-3 能根據我的產品介紹構思一些合適的產品名稱,GPT-3 返回的綠色高亮部分即為分析結果。

OpenAI API 元件選擇

以下介紹了 OpenAI API 中一些重要的元件:

image.png

image.png

image.png

image.png

image.png

image.png

image.png

自定義模型

Zero-Shot(零樣本)

直接將提示和文字給到 GPT-3,讓 GPT-3 自行理解提示並給出回答: 

圖片

One-Shot(單樣本)

透過給 GPT-3 一個簡單示例,讓模型瞭解我們想要的輸出形式以及風格,從而給出回答:

圖片

Few-Shot(小樣本)

透過給 GPT-3 一些簡單的示例,讓模型瞭解我們想要的輸出形式以及風格,從而給出回答:

圖片

Fine-Tuning(微調)

圖片

GPT-3 的企業級使用場景

RPG 遊戲

GPT 和 Open AI 可以幫助收集並分析玩家資訊及遊戲程式等資料,從而動態生成符合場景條件的 NPC,讓玩家能夠更自然且更真實地與遊戲中的 NPC 進行互動。

AI 客服

GPT 強大的語義理解、文字生成和文字總結等能力,能更好地協助客服完成自動交易,並更自然地與客戶聊天。

Azure OpenAI 官方指南 Vol.01 GPT-3 作者

羅貴歡 Sunny Luo 微軟雲解決方案工程師
周銳君 Milo Zhou 微軟雲解決方案工程師

2023 Microsoft Azure
中國區年度技術峰會
註冊線上直播
掃碼搶先抓牢新局面

圖片

註冊10:00-13:00的主會內容
即可同步獲得13:30-16:00
所有分會場的觀看席位

相關文章