史上最強通用NLP模型GPT-2:OpenAI剛又釋出7.74億引數版本

dicksonjyl560101發表於2019-08-22

OpenAI號稱史上最強“通用”NLP模型又有新動作啦!繼今年2 月釋出了小型1.24億引數模型GPT-2後,OpenAI宣佈釋出7.74億引數GPT-2 模型,15.58億的完整模型也有望於幾個月內釋出。

今年2月,OpenAI釋出了號稱史上最強“通用”NLP模型,它基於Transformer,擁有 15億引數,使用含有 800萬網頁內容的資料集訓練,只為一個目的:

根據當前已有的資訊,預測下一個單詞是什麼。

新模型的名字叫GPT-2,是OpenAI去年釋出的無監督NLP模型GPT的直接擴充,新模型用到的引數和訓練資料,都增長了超過10倍引數數量。

但是OpenAI表示,由於這個新模型過於強大怕被濫用,所以沒有全部開源,遭到網友猛懟。

就在本週,OpenAI宣佈,釋出了7.74億引數GPT-2語言模型,15.58億的完整模型也有望於幾個月內釋出,並將GPT-2這6個月的進展情況在部落格上和大家做了介紹,本文將為大家梳理。

史上最強通用NLP模型GPT-2:OpenAI剛又釋出7.74億引數版本

OpenAI部落格地址:https://openai.com/blog/gpt-2-6-month-follow-up/

GPT-2有多“可怕”?訓練1小時相當於燒掉1臺頂配版X Max

今年2月,OpenAI宣稱他們研究出一個GPT-2的NLP模型,號稱“史上最強通用NLP模型”,因為它是:

  1. 踩在15億引數的身體上:爬取了Reddit上點贊超過三票的連結的文字內容,大約用到1000萬篇文章,資料體量超過了40G,相當於35000本《白鯨記》。(注:小說約有21萬單詞,是電影《加勒比海盜》的重要故事參考來源之一。動漫《海賊王》裡四皇之一的白鬍子海賊團的旗艦就是以故事主角大白鯨的名字Moby Dick命名)。
  2. 無需預訓練的“zero-shot”:在更通用的資料集基礎上,使用自注意力模組遷移學習,不針對任何特定任務的資料進行訓練,只是作為最終測試對資料進行評估,在Winograd Schema、LAMBADA以及其他語言建模任務上實現了state-of-the-art 的結果。
  3. 最終結果:8個資料集中油7個重新整理當前最佳紀錄。

下表顯示了最先進的zero-shot結果。(+)表示該項分數越高越好。(-)表示分數越低越好。

史上最強通用NLP模型GPT-2:OpenAI剛又釋出7.74億引數版本

雖然OpenAI沒有在論文中提及具體的計算力及訓練時間,但透過公佈的資料推測,他們的模型使用了256個谷歌雲TPU v3。

TPU v3在Google之外只提供單獨使用版本(排除OpenAI可能得到了特別的許可),很可能GPT-2訓練時所需的成本將高達8 * 256 = 2048美元/小時,相當於一小時燒掉一臺512G的iPhone Xs Max。

史上最強通用NLP模型GPT-2:OpenAI剛又釋出7.74億引數版本

然而,OpenAI並沒有完全公佈GPT-2模型及程式碼,OpenAI給出的理由是: 因為這個模型能力太強大了!他們目前還有點hold不住它。一旦開源後被壞人拿到,將會貽害無窮。有點中國武俠小說裡,絕世武功秘籍的意思。

網友吐槽:不公開程式碼和訓練集就乾脆別發表!

於是開發者和學者們不幹了,紛紛質疑OpenAI這種做法顯得心口不一。甚至盛產吐槽大神的Reddit上,有人建議OpenAI乾脆改名CloseAI的言論,獲得了數百網友的點贊。

  • OpenAI乾脆改名“CloseAI”算了!
史上最強通用NLP模型GPT-2:OpenAI剛又釋出7.74億引數版本

  • 我也做了個超強大的MNIST模型,要不要擔心它被濫用而不公開呢?
史上最強通用NLP模型GPT-2:OpenAI剛又釋出7.74億引數版本

更有甚者,比如下面這位Ben Recht,還發了一條Twitter長文進行嘲諷:

史上最強通用NLP模型GPT-2:OpenAI剛又釋出7.74億引數版本

對於種種質疑,OpenAI在最新的部落格中進行了回應。

OpenAI在對模型的研究和合作測試中總結出3點

在對模型的研究和合作測試中,OpenAI有3點總結:

1.協調合作很困難,但有可能實現。

到目前為止,我們還沒有公開發布15.58億引數的完整模型,不過已經有不少組織開發了系統來訓練模型,並公開討論如何訓練更大的模型。比如來自華盛頓大學的NLP開發人員Hugging Face和艾倫人工智慧研究所(AI2)的團隊已明確採用了類似的分階段釋出方法。自今年2月以來,我們已經與超過五個複製GPT-2模型的團隊進行了交流。

進行這些對話並不容易,因為它涉及專有系統,而且我們並不清楚是討論這些模型應該找哪些人來交流,以及在不同組織和團隊間討論尚未釋出的模型時,合適的流程是什麼,等等。

2、透過模型合成的文字可能會讓人們感覺更為合理。

我們的合作伙伴Sarah Kreps和Miles McCain在康奈爾大學發表的一項研究表明,人們發現GPT-2合成文字的樣本幾乎與真人寫出的文字具有同樣的說服力(測試者中有72%的人認為這些合成的文章是可信的)《紐約時報》上的真實文章得票率為83%。

此外,艾倫研究所和華盛頓大學的研究表明,由名為“GROVER”的AI系統撰寫的新聞比人類寫的更為合理。這些研究結果使我們在釋出語言模型時更加謹慎。

3.檢測模型並不是個簡單的事。

惡意使用者可以使用各種取樣技術(包括拒絕取樣)或微調模型來逃避檢測。最終部署的檢測系統可能需要在各代中都具備極高準確率(99.9%-99.99%)。

我們的研究表明,目前基於機器學習的方法只能達到90% 到95%的準確度,對語言模型進行微調還會進一步降低準確性。這條路真的很有前途,但這個問題也是真的困難。我們認為,文字的統計檢測需要輔以人類判斷和與文字相關的後設資料,以便有效地打擊對語言模型的濫用。

OpenAI與其他機構團隊的合作

OpenAI與四家領先的研究機構合作,分析了新發布的7.74億引數的GPT-2模型,以及尚未釋出的完整GPT-2模型。我們將一些初步結果寫入了技術報告,目前正在分析可能釋出的15.58億引數完整模型的有關問題。此外,還制定了非商用法律協議,以促進組織機構之間的模型共享。

康奈爾大學正在研究人類對語言模型產生的數字虛假資訊的敏感性。

米德爾伯裡恐怖主義、極端主義和反恐國際研究中心(CTEC)正在探索GPT-2被網路上的恐怖分子和極端分子濫用的情況。

俄勒岡大學在開發一系列“偏差檢測器”來分析GPT-2模型中的偏差。

德克薩斯大學奧斯汀分校正在研究在特定領域資料集上進行微調後的GPT-2輸出的統計可檢測性,以及跨不同語言模型的檢測傳遞程度。

未來,完整模型何時釋出?

未來我們將綜合考慮以上這些合作伙伴的研究成果,觀察當前的7.74億引數模型的使用情況,並與研究人員和決策者討論語言模型的制定。作為我們分階段釋出策略的一部分, 我們目前的計劃是在幾個月內釋出15.58億引數的完整GPT-2模型,但如果合作伙伴的調查結果有變,或者當前的模型出現了惡意使用,那麼最終的釋出時間也可能會變化。

我們認為,分階段釋出、以及基於合作伙伴關係的模型共享,這兩點是負責任的AI模型釋出的關鍵基礎,在效能強大的生成模型的背景下更是如此。未來,隨著時間的推移,大型模型固有的問題將會越來越多,而不是越來越少。我們希望在GPT-2模型上開展的合作會有助於解決這些問題。

大型語言模型存在無法估量的潛在威脅,公開資料需要謹慎再謹慎!

隨模型釋出的還有一份技術報告,介紹與更廣泛的AI研究社群協調發布規範方面的經驗。新智元也把重點內容為大家做了總結:

大型語言模型在各個領域具有廣泛的用途。例如建立情感分類器、語音識別系統、翻譯系統、對話系統,區分由語言模型(尤其是對抗性示例)生成的合成文字和人類創作的文字。

除此之外,在生物醫學文獻分析、生成綜合測試資料、生成放射學報告和腦電圖報告等方面的應用對人類健康有著非常大的價值。

在過去六個月內,GPT-2已經被應用在軟體工程、文案、藝術、娛樂、健康等多個領域,幫助文字工作者糾正語法、提供靈感,為開發者自動補全程式碼(例如Deep TabNine),創作音樂(例如OpenAI的MuseNet)等等。

小引數的GPT-2就在這些領域的成功應用,為研究人員釋出更大規模引數的模型樹立了極大的信心。在此之前,研究人員一直擔心GPT-2可能導致無法估量的潛在風險,例如虛假資訊、網路暴力等。

研究人員將目前已知的惡意行為分為三個層級:

1. 初、中級。資源有限,可能只是好奇想試著搞點事情

2. 專家級。能力夠,資源也不少。例如水軍、營銷號、垃圾郵件等

3. 大師級。也被稱為高階持續性威脅(APT),技能一流,資源充足,能夠打硬仗、打持久戰

研究人員透過後續監測最終確認,別有用心之人很難具備利用GPT-2掀起滔天巨浪的能力和資源,因此研究人員才敢繼續釋放更大規模的引數。

而面對大師級的惡意攻擊者,資料量的多少,根本不能顯著的影響他們為非作歹的意願和進度。這個時候,正式專業的安防機構體現價值的機會。

OpenAI正在和合作夥伴攜手研究應對可能的各種威脅,制定對戰策略,加固正義的防線。

語言模型未來的四大趨勢

透過進一步的研究,OpenAI希望語言模型能夠以更高的輸出質量和準確度擴充套件效能。除了這些模型級別的改進之外,OpenAI還確定了四種趨勢,以便以有益和有效的方式理解和塑造語言模型的社會影響。

趨勢1:語言模型轉移到裝置

考慮到計算能力成本的歷史趨勢,我們可以期待語言模型在一系列裝置上得到更廣泛的部署。例如,Hugging Face將1.24億引數GPT-2移植到Swift CoreML中,以便在iOS裝置上進行推理。

趨勢2:更可控的文字生成

語言模型的潛在用途將隨著提高可靠性和/或可控性的發展而增長,例如新的抽樣方法、新的資料集、新的目標函式和新的人機介面。

可控性的例子包括:

•在GROVER模型中,進行介面修改以引入輸出可控性,使得可以輸入文章後設資料(例如,標題,作者)以生成高質量輸出。

•清華大學的ERNIE模型與知識庫相結合,促進了比通用語言模型更可控的生成。

•Stanford和FAIR展示了透過更直接地針對高階會話屬性(例如重複程度)進行最佳化來改善聊天機器人效能的潛力。

趨勢3:更多風險分析

目前還不清楚如何比較具有不同效能配置檔案的兩個大型語言模型的誤用性(misusability),特別是在考慮微調(fine-tuning)時。一些關鍵的考慮因素包括在模型的幫助下生成一定質量的文字所需的時間和專業知識,以及不使用模型的情況,儘管隨著技術工具的發展,這將隨著時間的推移而變化。

趨勢4:工具可用性提升

今天,模型的訓練和部署需要了解ML技術,使用工具的技能以及訪問測試平臺以進行評估。穩步改進的與語言模型互動的工具,如Talk to Transformer和Write with Transformer,將擴大能夠以各種不同方式使用語言模型的參與者的數量。這些對工具可用性的改進將對模型效能和取樣方法的改進起到補充作用,並將使語言模型的創造性應用比我們目前看到的更廣泛。

GPT-2時間線梳理

2019年2月

OpenAI首次公佈了GPT-2論文以及1.24億引數的GPT-2模型。

論文:

2019年3月

OpenAI及其合作伙伴舉行晚宴討論釋出高風險AI的合適時機:

2019年5月

釋出3.35億模型,以及大規模模型輸出的資料集。

釋出檢測基線,幫助人們瞭解如何檢測GPT-2等模型的輸出。

TalktoTransformer.com網站上線,可以讓大眾直觀體驗GPT-2。輸入一句話,它會自動為你腦補出一段狗血劇情,下圖:

史上最強通用NLP模型GPT-2:OpenAI剛又釋出7.74億引數版本

隨後一份教程上線。但作者也提醒GPT-2帶來的潛在風險不可限量,並舉例水軍機器人由於GPT-2得到極大的提升。

史上最強通用NLP模型GPT-2:OpenAI剛又釋出7.74億引數版本

2019年6月

OpenAI在國會聽證會上,討論關於合成媒體的影響,包括討論合成文字。

DeepMind討論了GPT-2及適用於生成模型的出版規範的重要性無監督學習的討論:

https://deepmind.com/blog/article/unsupervised-learning

OpenAI開始與合作伙伴開展研究合作,以制定人工智慧研究的出版規範。並嘗試與各種各樣的人工智慧研究組織合作,提出科學家在釋出之前可能要問的問題,以及他們可以用來做出版決策的潛在框架。

2019年7月

DeepTabNine基於GPT-2開發程式碼自動補全應用。

使用自迴歸Transformer模型生成多圈對話響應:

GLTR:生成文字的統計檢測和視覺化:

2019年8月

思科技術專案和劍橋大學的研究人員發表了一篇關於減少合成惡意使用的工作檔案媒體研究:機器學習的注意事項和潛在釋出實踐

論文:

初創公司AI21 Labs釋出了一個神經文字生成器“HAIM”,他們只發布了該模型的3.45億引數版本:

NVIDIA Research訓練了83億引數GPT-2模型:

釋出了7.74億引數模型。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2654536/,如需轉載,請註明出處,否則將追究法律責任。

相關文章