OpenAI「假新聞」生成器GPT-2的最簡Python實現

機器之心發表於2019-04-20

原文網址 : http://www.jiqizhixin.com/articles/2019-04-20-4

然而這個 GPT-2 模型內含多達 15 億個引數，過高的算力要求讓大多數開發者望而卻步。而且 OpenAI 還曾「出於對模型可能遭惡意應用的擔憂，並不會立即釋出所有預訓練權重。」一時引發機器學習社群的吐槽。

近日，由 Buzzfeed 資料科學家 Max Woolf 開源的「GPT-2 精簡版」出現在 GitHub 上。這是一個簡單的 Python 軟體包，它封裝了 OpenAI GPT-2 文字生成模型（特別是它是具有 1.17 億超引數的「較小」版本）的現有模型微調和生成指令碼。此外，這個軟體包讓我們可以更容易地生成文字，生成一個檔案以便於管理，從而允許字首強制文字以給定的短語開頭。

專案連結：https://github.com/minimaxir/gpt-2-simple

OpenAI「假新聞」生成器GPT-2的最簡Python實現

文字生成示意

該 Python 包包含以下內容，並對其進行了最小程度的低階更改：

來自 OpenAI 官方 GPT-2 庫的模型管理（MIT 許可證）
來自 GPT-2 中 Neil Shepperd fork 的模型微調（MIT 許可證）
來自 textgenrnn 的文字生成輸出管理（MIT 許可證）

為了微調，該專案強烈建議你使用 GPU，雖然你用 CPU 也可以生成（但速度會慢很多）。如果你在雲端訓練，強烈建議你使用 Colaboratory notebook 或帶有 TensorFlow 深度學習影象的谷歌計算引擎 VM（因為 GPT-2 模型位於 GCP 上）。

你可以使用 gpt-2-simple 在這個 Colaboratory notebook 中免費用 GPU 來重新訓練模型，該 notebook 還演示了這個軟體包的其它功能。

Colaboratory notebook 地址：https://colab.research.google.com/drive/1VLG8e7YSEwypxU-noRNhsv5dW4NfTGce

安裝

gpt-2-simple 可以通過 PyPI 來安裝：

pip3 install gpt_2_simple

你還要為你的系統安裝相應的 TensorFlow（如 tensorflow 或 tensorflow-gpu）

使用

將模型下載到本地系統的示例，在資料集上對它進行微調，然後生成一些文字。

警告：模型是預訓練的，因此任何微調模型都是 500MB。

import gpt_2_simple as gpt2

gpt2.download_gpt2()   # model is saved into current directory under /models/117M/

sess = gpt2.start_tf_sess()
gpt2.finetune(sess, 'shakespeare.txt', steps=1000)   # steps is max number of training steps

gpt2.generate(sess)

生成模型的檢查點預設在/checkpoint/run1 中。如果你想從該資料夾中載入模型並從中生成文字：

import gpt_2_simple as gpt2

sess = gpt2.start_tf_sess()
gpt2.load_gpt2(sess)

gpt2.generate(sess)

與 textgenrnn 一樣，你可以用 return_as_list 引數生成並儲存文字供以後使用（如 API 或機器人）。

single_text = gpt2.generate(sess, return_as_list=True)[0]
print(single_text)

如果你想在 checkpoint 資料夾中儲存或載入多個模型，可以把 run_name 引數傳遞給 finetune 和 load_gpt2。

注意：如果你想在另一個資料集上進行微調或載入另一個模型，先重啟 Python 會話。

gpt-2-simple 和其它文字生成程式的區別

GPT-2 用來生成文字的方法與 textgenrnn 等其它安裝包（特別是純粹使用 GPU 生成完整文字序列並隨後對其進行解碼的安裝包）使用的方法略有不同，這些方法在沒有破解底層模型程式碼的情況下無法輕易修復。

所以：

一般來說，GPT-2 更擅長在整個生成長度上維護上下文，從而能夠有效地生成對話文字。文字在語法上通常也是正確的，並且有適當的大寫和較少的列印錯誤。
原始 GPT-2 模型在大量來源的文字上進行訓練，使該模型包含輸入文字中看不到的趨勢。
GPT-2 針對每個請求最多隻能生成 1024 個 token（約是 3-4 段英語文字）。
GPT-2 在到達特定的結束 token 時無法提前停止。（暫時解決方法：將 truncate 引數傳遞給 generate 函式，以便只收集文字，直至到達特定的結束 token。你可能想適當地縮小 length。）
較高溫度（如 0.7-1.0）能夠更好地生成更有趣的文字，而其它框架在溫度 0.2-0.5 之間運轉更好。
當對 GPT-2 進行微調時，它並不清楚較大文字中文件的開頭或結尾。你需要使用定製的字元序列來顯示文件的開頭或結尾。之後在文字生成中，你可以指定針對開始 token 序列的 prefix 和針對結束 token 序列的 truncate。
通過設定一個可分成 nsamples 的 batch_size，你可以使用 GPT-2 生成並行文字，從而加快生成速度。GPT-2 與 GPU 配合得很好（可以在 Colaboratory K80 上將 batch_size 設定為 20）！

計劃工作

注意：除非需求另有規定，否則本專案的範圍非常小。

允許使用者生成超過 1024 個 token 的文字。
允許使用者使用 Colaboratory 的 TPU 進行微調。
允許使用者使用多個 GPU（如 Horovod）。
對於 Colaboratory，允許模型在訓練期間自動將檢查點儲存至 Google Drive，以防止超時。

使用 gpt-2-simple 的示例

ResetEra：生成視訊遊戲論壇討論

地址：https://www.resetera.com/threads/i-trained-an-ai-on-thousands-of-resetera-thread-conversations-and-it-created-hot-gaming-shitposts.112167/

專案建立者：Max Woolf

基於 GPT-2 的「故事生成器」

GPT-2 強大的模型不僅吸引了眾多機器學習從業者的關注，其「腦補」故事的能力也讓人們不禁有了很多大膽的想法。為了讓更多人能夠接觸最新技術，另一個開發者 eukaryote 最近還推出了一個新網站：This Story Does Not Exist

連結：https://www.thisstorydoesnotexist.com/

這是一個基於 GPT-2 的文字生成器。在這裡，每個人都可以輸入一段文字，看看人工智慧會給你講一段什麼樣的故事，比如：

OpenAI「假新聞」生成器GPT-2的最簡Python實現

改寫冰與火之歌的結局，就靠你了！

GPT-2：OpenAI的NLP商業化野望
2020-02-09
GPTOpenAI
Flutter實戰之實現一個簡單的新聞閱讀器
2018-03-18
Flutter
python是如何實現生成器的
2018-10-29
Python
python 實現 TCP 伺服器最簡流程
2020-07-18
PythonTCP伺服器
python 實現 TCP、UDP 客戶端最簡流程
2020-07-18
PythonTCPUDP客戶端
史上最強通用NLP模型GPT-2：OpenAI剛又釋出7.74億引數版本
2019-08-22
模型GPTOpenAI
純C語言手搓GPT-2，前OpenAI、特斯拉高管新專案火了
2024-04-09
C語言GPTOpenAI
Advancement of Science：Facebook 假新聞傳播調查
2019-08-01
歐洲晴雨表報告：假新聞和虛假網路訊息
2019-11-15
最強人工智慧 OpenAI 極簡教程
2022-07-12
人工智慧OpenAI
梯度下降法實現最簡單線性迴歸問題python實現
2018-11-01
梯度Python
研究顯示假新聞在 Twitter 上的傳播速度遠快於真新聞
2018-03-10
研究顯示假新聞在Twitter上的傳播速度遠快於真新聞
2018-03-09
實現最簡單的模板替換
2018-08-10
使用rails實現最簡單的CRUD
2019-03-04
AI
經歷虛假新聞指責後，Facebook擬推出新聞專案
2018-03-07
不負其名OpenAI，GPT-2模型階段性公佈……
2019-05-04
OpenAIGPT模型
生成假人臉、假新聞...AI虛擬世界正形成
2019-02-16
AI虛擬世界
[pythonskill]利用python實現假設性檢驗方法
2018-08-03
Python
歐盟委員會利用區塊鏈的力量打擊假新聞
2018-05-02
區塊鏈
大規模非同步新聞爬蟲的實現思路
2019-05-20
非同步爬蟲
大規模非同步新聞爬蟲：實現一個同步定向新聞爬蟲
2018-12-03
非同步爬蟲
c#實現最簡單的socket通訊
2020-10-03
C#
央視新聞《帶人回本是真的假的》手機搜狐網
2022-03-22
如何利用 Python 爬蟲實現給微信群發新聞早報？（詳細）
2020-05-30
Python爬蟲
從零實現最簡編譯模型
2023-01-16
編譯模型
大規模非同步新聞爬蟲：簡單的百度新聞爬蟲
2018-12-02
非同步爬蟲
大規模非同步新聞爬蟲的分散式實現
2019-06-10
非同步爬蟲分散式
央視新聞《回本最穩最厲害的導師》手機搜狐網
2022-03-22
OpenAi[ChatGPT] 使用Python對接OpenAi APi 實現智慧QQ機器人-學習詳解篇
2022-12-18
OpenAIChatGPTPythonAPI機器人
Jsoup + HtmlUtil 實現網易新聞網頁爬蟲
2019-01-14
JSHTML網頁爬蟲
Joe Hovde：研究顯示“假新聞”成為Facebook去年常見詞
2018-04-19
大規模非同步新聞爬蟲：實現功能強大、簡潔易用的網址池(URL Pool)
2018-12-03
非同步爬蟲
比OpenAI快8倍的新AI影像生成器，可在廉價硬體上執行
2024-02-29
OpenAI
leetcode無重複字元的最長字串 python實現
2019-04-16
LeetCode字元字串Python
python 爬取 blessing skin 的簡單實現
2020-03-04
Python
Python實現簡單的excel對比工具
2021-04-22
PythonExcel
PoD-Tiny——實現零信任交易的最簡協議
2019-07-24
協議

OpenAI「假新聞」生成器GPT-2的最簡Python實現

相關文章