從製造者那裡瞭解到ChatGPT是如何建立的內部故事

前端小智發表於2023-04-03
微信搜尋 【大遷世界】, 我會第一時間和你分享前端行業趨勢,學習途徑等等。
本文 GitHub https://github.com/qq449245884/xiaozhi 已收錄,有一線大廠面試完整考點、資料以及我的系列文章。
獨家對話,帶您深入探訪一場文化現象的幕後
作者:Will Douglas Heaven

2022年11月底,OpenAI在沒有任何宣傳的情況下發布了ChatGPT,這家總部位於舊金山的人工智慧公司對此並無太多期望。當然,OpenAI內部的人也沒有準備好迎接病毒式的超級熱門。自那時以來,該公司一直在努力迎頭趕上,並努力利用這一成功。

OpenAI的政策工作者Sandhini Agarwal表示,公司內部將其視為“研究預覽”,這是對兩年前技術的更加成熟的版本,更重要的是,它試圖透過收集公眾的反饋來消除其中的一些缺陷。在OpenAI工作的科學家Liam Fedus表示:“我們不想把它吹噓成一個重大的基本進展。”

為了瞭解這個聊天機器人背後的內幕故事——它是如何製作的,自發布以來OpenAI如何更新它,以及其製造者對其成功的看法——我與四位幫助構建這個成為有史以來最受歡迎的網際網路應用之一的人交談。除了Agarwal和Fedus,我還與OpenAI的聯合創始人John Schulman和OpenAI對齊團隊的負責人Jan Leike交談,該團隊致力於解決讓AI按照使用者的意願去做事(而不是別的)的問題。

我得出的結論是,OpenAI對其研究預覽的成功仍然感到困惑,但已抓住機會推動這項技術的發展,觀察數百萬人如何使用它,並努力解決出現的最嚴重問題。

自11月以來,OpenAI已經多次更新了ChatGPT。研究人員正在使用一種名為對抗性訓練的技術來阻止ChatGPT讓使用者誘導它表現惡劣(稱為越獄)。這項工作讓多個聊天機器人互相對抗:一個聊天機器人充當對手並透過生成文字攻擊另一個聊天機器人,迫使其突破通常的約束併產生不需要的回應。成功的攻擊將被新增到ChatGPT的訓練資料中,希望它學會忽略它們。

OpenAI與微軟簽署了一項數十億美元的協議,並宣佈與全球管理諮詢公司貝恩結盟。貝恩計劃在其客戶(包括可口可樂公司)的營銷活動中使用OpenAI的生成式AI模型1[3]。在OpenAI之外,關於ChatGPT的熱議引發了全球大型語言模型的又一次熱潮,各地的公司和投資者紛紛加入。

短短三個月內,這引起了很大的關注。ChatGPT從何而來?OpenAI採取了哪些措施確保產品釋出前做好準備?他們接下來會走向哪裡?

Jan Leike:實話說,這讓我們有點不知所措。我們感到驚訝,我們一直在努力迎頭趕上。

John Schulman:釋出之後的幾天,我一直在密切關注Twitter,那段時間推特上充斥著ChatGPT截圖。我原以為它會很符合人們的直覺,並會獲得一定的關注,但我沒料到它會達到如此廣泛的主流普及度。

Sandhini Agarwal:我認為我們都沒有料到人們會如此熱衷於使用它。我們如此專注於這些模型,以至於有時忘記了它們對外界來說是多麼驚人。

Liam Fedus:我們確實對它受到的熱烈歡迎感到驚訝。之前有很多次通用聊天機器人的嘗試,我知道我們面臨的挑戰不小。然而,我們的私人測試讓我們相信,我們可能真的做出了一款人們喜歡的產品。

Jan Leike:我想更好地瞭解驅動這一切的原因——推動其病毒式傳播的原因。說實話,我們不瞭解。我們不知道。

團隊的困惑部分源於ChatGPT內部的大部分技術並不是新的。ChatGPT是GPT-3.5的一個最佳化版本,而GPT-3.5是OpenAI在釋出聊天機器人之前幾個月釋出的大型語言模型家族。GPT-3.5本身是2020年出現的GPT-3的更新版本1。OpenAI透過將這些模型作為應用程式程式設計介面(API)提供在其網站上,讓其他軟體開發人員可以輕鬆地將模型嵌入到他們自己的程式碼中。2022年1月,OpenAI還發布了一種名為InstructGPT的GPT-3.5的最佳化版本。但是這些先前的技術版本都沒有向公眾推廣。

Liam Fedus表示,ChatGPT模型是從與InstructGPT相同的語言模型中微調而來的,他們使用了類似的微調方法。他們新增了一些對話資料並對訓練過程進行了調整,因此不希望將其過度宣傳為重大的基本進步。事實證明,對話資料對ChatGPT產生了很大的積極影響。

John Schulman表示,儘管從標準基準來評估這些模型的原始技術能力並沒有實質性的差異,但ChatGPT更易於訪問和使用。

Jan Leike解釋說,從某種意義上說,ChatGPT可以被理解為我們已經有的AI系統的一個版本。它並不比以前的模型具有更強大的功能。在ChatGPT問世前的一年裡,相同的基本模型已經在API上可用。另一方面,他們使其更符合人們想要用它做的事情。它以對話的方式與您交流,易於在聊天介面中訪問,努力提供幫助。這是令人驚歎的進步,人們正在意識到這一點。

John Schulman指出,ChatGPT更容易推斷出使用者的意圖,而且使用者可以透過反覆對話來獲得他們想要的內容。

ChatGPT 的訓練方式與 InstructGPT 非常相似,採用了一種稱為基於人類反饋的強化學習(RLHF)的技術。這是 ChatGPT 的秘密武器。基本思路是採用一個傾向於隨意輸出內容的大型語言模型——在這種情況下是 GPT-3.5——並透過教它人類使用者實際更喜歡的回應型別來進行調優。

Jan Leike:我們讓一大群人閱讀 ChatGPT 的提示和回應,然後說出哪個回應比另一個回應更可取。所有這些資料隨後合併到一個訓練執行中。很多內容與我們在 InstructGPT 中做的事情相同。你希望它能提供幫助,要真實,要無毒。然後還有一些特定於產生對話和成為助手的事情:比如,如果使用者的查詢不清楚,它應該提出後續問題。它還應該澄清自己是一個 AI 系統。它不應該假設自己沒有的身份,不應該聲稱擁有它所沒有的能力,當使用者要求它執行不應該執行的任務時,它必須寫出拒絕資訊。在這次培訓中出現的一句話是:“作為一個由 OpenAI 訓練的語言模型……”這並非是故意放進去的,但它是人類評估者高度評價的事物之一。

Sandhini Agarwal:是的,我認為這就是發生的事情。人類評估者必須根據各種標準對模型進行排名,比如真實性。但是他們也開始更喜歡他們認為是良好實踐的事物,比如不假裝是你不是的東西。

由於 ChatGPT 是使用與 OpenAI 之前使用的相同技術構建的,因此在準備將此模型釋出給公眾時,團隊並未採取任何不同的做法。他們認為之前模型的標準已經足夠了。

Sandhini Agarwal:在準備釋出時,我們並沒有將此模型視為一個全新的風險。GPT-3.5 已經在世界上存在,我們知道它已經足夠安全。透過 ChatGPT 對人類偏好的培訓,模型自動學會了拒絕行為,拒絕了很多請求。

Jan Leike:我們確實為 ChatGPT 進行了一些額外的“紅隊”測試,OpenAI 的每個人都坐下來嘗試破解模型。我們還有外部團隊做同樣的事情。我們還有一個早期訪問計劃,信任的使用者會提供反饋。

Sandhini Agarwal:我們確實發現它產生了一些不需要的輸出,但這些都是 GPT-3.5 也會產生的東西。因此在風險方面,作為一個研究預覽——因為這是它最初的目的——感覺還不錯。

John Schulman:你不能等到你的系統完美無缺才釋出。我們已經對早期版本進行了幾個月的測試,測試人員對產品給予了積極的評價。我們最大的擔憂是關於事實性的問題,因為模型喜歡捏造事實。但 InstructGPT 和其他大型語言模型已經在那裡了,所以我們認為,只要 ChatGPT 在事實性和其他安全問題上優於那些模型,它就應該可以使用。在釋出前,我們確認了根據我們有限的評估,這些模型似乎比其他模型在事實性和安全性方面更強一些,所以我們決定繼續釋出。

自 ChatGPT 釋出以來,OpenAI 一直在觀察人們如何使用它,這是第一次看到一款大型語言模型在數千萬可能試圖測試其極限和發現其缺陷的使用者手中如何表現。團隊試圖關注 ChatGPT 產生的最具問題性的例子——從關於神對強姦神父之愛的歌曲到竊取信用卡號的惡意程式碼——並用它們來約束模型的未來版本。

Sandhini Agarwal:我們有很多下一步要做的事情。我確實認為 ChatGPT 的病毒式傳播使我們知道的很多問題變得非常突出,並變得非常關鍵——這些都是我們希望儘快解決的問題。比如,我們知道模型仍然存在很大的偏見。是的,ChatGPT 很擅長拒絕不良請求,但編寫提示讓模型不拒絕我們希望它拒絕的內容也相當容易。

Liam Fedus:看到使用者多樣化和富有創意的應用令人振奮,但我們始終專注於需要改進的領域。我們認為透過部署、獲取反饋和最佳化的迭代過程,我們可以生產出最符合需求和最有能力的技術。隨著我們的技術不斷髮展,新問題不可避免地會出現。

Sandhini Agarwal:釋出後的幾周裡,我們檢視了一些人們發現的最糟糕的例子,這些都是人們在現實中看到的最糟糕的事情。我們對這些例子進行了評估,討論瞭如何解決這些問題。

Jan Leike:有時候是因為在 Twitter 上病毒式傳播的內容,但我們也有一些人悄悄地與我們取得聯絡。

Sandhini Agarwal:我們發現的很多問題都是越獄行為,這絕對是我們需要解決的問題。但由於使用者必須嘗試這些複雜的方法來讓模型說出一些不好的東西,這並不是我們完全忽視了的問題,或者對我們來說非常令人驚訝的事情。然而,我們現在正在積極解決這個問題。當我們發現越獄行為時,我們會將它們新增到我們的訓練和測試資料中。我們看到的所有資料都會輸入到未來的模型中。

Jan Leike:每次我們有了更好的模型,我們都希望將其投放出去並進行測試。我們非常樂觀地認為,一些針對性的對抗性訓練可以大大改善越獄問題。儘管不清楚這些問題是否會完全消失,但我們認為我們可以使越獄行為變得更加困難。再次強調,在釋出之前,我們並不是不知道越獄是可能的。我認為,在部署這些系統後,真正預測這些系統會出現的安全問題非常困難。所以我們非常重視監測人們使用系統的目的,觀察發生了什麼,然後對此做出反應。這並不是說我們不應該在預見到安全問題時主動進行緩解。但確實,預見系統進入現實世界時實際發生的一切非常困難。

1月份,微軟釋出了名為 Bing Chat 的搜尋聊天機器人,許多人猜測這是 OpenAI 尚未正式宣佈的 GPT-4 的一個版本。(OpenAI 表示:“Bing 是由微軟專門為搜尋定製的我們的下一代模型之一驅動的。它結合了 ChatGPT 和 GPT-3.5 的技術進步。”)技術巨頭們為了保護數十億美元的聲譽而使用聊天機器人,這為負責構建底層模型的人們帶來了新的挑戰。

Sandhini Agarwal:現在的風險肯定比六個月前要高得多,但仍然低於一年後可能的水平。很明顯,這些模型的使用環境對它們的重要性非常大。就像 Google 和 Microsoft,即使是一件事實不清的事情,也因為它們被認為是搜尋引擎而成為了一個大問題。用於搜尋等場景的大型語言模型所需的行為與僅僅是一個趣味聊天機器人的要求非常不同。我們需要弄清楚如何在所有這些不同的用途之間找到平衡,為人們創造出在一系列場景中有用的東西,其中所需的行為可能真的有很大差別。這增加了更多的壓力。因為我們現在知道,我們正在構建這些模型,以便它們可以變成產品。ChatGPT 現在是一個產品,因為我們有了 API。我們正在構建這種通用技術,我們需要確保它在所有方面都能運作良好。這是我們目前面臨的關鍵挑戰之一。

John Schulman:我低估了人們在探測和關心 ChatGPT 政治方面的程度。在收集訓練資料時,我們本可以做出一些更好的決策,從而減輕這個問題。我們現在正在解決這個問題。

Jan Leike:從我的角度來看,ChatGPT 失敗很多——還有很多事情要做。我們並沒有解決這些問題。我們都必須非常清楚地認識到自己和別人的技術侷限性。我的意思是,語言模型已經存在了一段時間,但現在仍然是初期階段。我們知道它們存在的所有問題。我認為我們只需要非常坦率地面對,管理期望,並明確這不是一個成品。

總結

本文介紹了 ChatGPT 是如何由 OpenAI 團隊開發出來的。ChatGPT 是一個大型的語言模型,它可以根據使用者的輸入生成自然語言響應。自 ChatGPT 推出以來,OpenAI 一直在關注使用者的使用情況,以瞭解大量語言模型在成千上萬的使用者手中的表現。

文章中提到,開發團隊在構建 ChatGPT 時遇到了許多挑戰,例如如何讓模型更好地理解語言、如何在處理大量資料時保持穩定性等。他們採取了一些創新的方法來解決這些問題,例如使用無監督的學習方法和對抗性訓練。

此外,文章還提到了一些關於語言模型未來發展的看法,包括模型的增強、模型的可解釋性以及模型與人類語言能力之間的關係。

編輯中可能存在的bug沒法實時知道,事後為了解決這些bug,花了大量的時間進行log 除錯,這邊順便給大家推薦一個好用的BUG監控工具 Fundebug

原文:https://www.technologyreview.com/2023/03/03/1069311/inside-st...

交流

有夢想,有乾貨,微信搜尋 【大遷世界】 關注這個在凌晨還在刷碗的刷碗智。

本文 GitHub https://github.com/qq449245884/xiaozhi 已收錄,有一線大廠面試完整考點、資料以及我的系列文章。

相關文章