2020-07-31 16:07:22

機器之心報導

編輯：蛋醬、杜偉、小舟

是時候重新審視這個「無所不能的」模型了！

GPT-3，「出道即巔峰」界的代表。

2020 年 5 月，OpenAI 高調推出了一款具有 1750 億引數的自迴歸語言模型「GPT-3」，在人工智慧領域掀起了一陣巨浪。從引數量上看，它比當時全球最大的深度學習模型 Turing NLP 大上十倍，從功能上看，它可以答題、翻譯、寫文章，還帶有一些數學計算的能力。

這讓人浮想聯翩：「莫非，真正的 AI 要來了嗎？」

無所不能，還是媒體的過譽？

顧名思義，GPT-3 是 OpenAI 釋出的自動補全工具第三代，這個專案經歷了多年的發展，一直代表著 AI 文字生成方面的最新方向。從許多方面的特徵看，這些進步類似於 2012 年以來 AI 影像方面的飛躍——在那之後，人工智慧的新一輪浪潮洶湧而來。

和所有深度學習系統一樣，GPT-3 也在從資料中尋找模式。為了簡化，該程式已經對龐大的文字集進行了訓練。這些規則對於人類來說是未知的。但是它們被儲存為數十億個 GPT-3 的神經網路的不同節點之間的加權連線。重要的是，在這個過程中，沒有涉及到人工輸入：該程式在沒有任何指導的情況下找出了模式，然後將其用於完成文字提示。

GPT-3 的突出特點是它的執行規模和其驚人的能夠自動完成的任務。

第一代 GPT 釋出於 2018 年，包含 1.17 億個引數。2019 年釋出的 GPT-2 包含 15 億個引數。而 GPT-3 擁有 1750 億個引數，是其前身的 100 多倍，是同類程式的 10 多倍。

自從 GPT-3 推出以來， OpenAI 向社群開放了商業 API，鼓勵大家使用 GPT-3 嘗試更多的實驗。目前是以內測版的形式向使用者出售，功能包括簡單的文字輸入輸出介面等。

所以我們才看到了這些眼花繚亂的案例：

基於問題的搜尋引擎

你可以將它理解為「專注於問答的谷歌」：鍵入問題， GPT-3 就會連結到相關的維基百科地址作為答案。

與歷史人物對話

鑑於 GPT-3 已經接受過大量數字書籍資料的訓練，所以它吸收了很多歷史人物的觀點與知識。這意味著你可以像和哲學家聊天一樣，開啟與 GPT-3 的對話。

當然，你和圖靈、夏農的對話，也許會被哈利波特突然打斷……

基於文字描述生成程式碼

用簡單的文字描述你想選擇的設計元素或頁面佈局， GPT-3 就會彈出相應程式碼。此外，它會自動新增程式碼註釋：

‍ 文字樣式轉換‍

‍

圖源：推特使用者 @Francis Jervis。

GPT-3 可將某種樣式編寫的輸入文字，更改為另一種樣式，不同文體之間自由切換。

繪圖助手

除了生成程式碼，你也可以讓 GPT-3 幫你畫圖、

影像補全

早在 GPT-2 時代，模型的自動補全影像功能就已經實現。如下圖所示，最右一列是原始圖片，最左側是輸入的半張圖片，中間的四列是 GPT-2 自動補全的圖片。

GPT-3 當然也能做到這一點，最令人印象深刻的是，它未曾接受過什麼特定訓練，不再需要微調，就能夠完成這些任務。這也說明了其所具備的模型靈活性。

總體來看，GPT-3 做到了一點：「用過的人都說好」，這表示它已經接近封神的地位。

深度學習之父 Geoffrey Hinton 這樣評價：「如果以 GPT-3 的出色效能推算未來，生命、宇宙和萬物的答案也不過是 4.398 萬億個引數。」

儘管 GPT-3 確實足夠優秀，但釋出一個多月以來，相關領域媒體的鼓吹情緒變得越來越強烈，以致於 OpenAI 的 CEO Sam Altman 在推特上公開表示：「GPT-3 的誇大宣傳是太多了。」

GPT-3：我沒有那麼完美

GPT-3 被誇大宣傳，原因出在哪裡呢？The Verge 上的一篇文章提供了詳細的解讀，指出了 GPT-3 在輸出偏向性、商業價值和資料偏見等方面存在著不可忽視的缺陷。

輸出具有偏向性且會犯低階錯誤

我們可以看到，所有這些示例都需要上下文，這樣才能更好地理解。語言模型（包括 GPT-2）通常的情況是，它們在完成基礎培訓後進行微調，以執行特定的任務。

GPT-3 卻沒有接受過完成任何特定任務的培訓，也不需要任何微調。例如在語法難題中，它需要一些類似於預期輸出型別的示例（稱為 few-shot 學習）。但總的來說，該模型是如此龐大，以至於各種功能都可以巢狀在它的節點上。使用者只需要輸入正確的提示就可以「騙過」它們。

此外，需要看到，上下文帶來的並不只是優點。

首先，有炒作因素。正如 AI 研究者 Delip Rao 在一篇解構關於 GPT-3 炒作文章中指出的那樣，早期的一些軟體 demo 熱衷於吹捧該技術的潛力，而忽略了它的弊端。

其次，GPT-3 在輸出「篩選」上具有偏向性，通常展示起作用的結果，而忽略掉那些不起作用的。所以，GPT-3 的能力在細節上有較多缺陷。仔細檢查輸出就會發現一些沒人會犯的愚蠢而粗俗的錯誤。

舉例而言，在使用 GPT-3 與歷史人物交談的專案中，當使用者與虛擬的賈伯斯交談時，問題是：「你現在在哪裡？」，虛擬的賈伯斯回答說：「我在加利福尼亞州庫比蒂諾的蘋果總部。」這是一個連貫通順的答案，但顯然不是一個值得信賴的答案。

此外，在回答一些瑣碎問題或者基本數學問題時，也能夠發現 GPT-3 犯了類似的錯誤。例如，無法正確地回答 1000000 之前的數字是什麼。

值得商榷的商業價值

此外，GPT-3 的種種輸出錯誤引出了另一個問題：它不可信賴的性質是否會影響其整體效用？畢竟 GPT-3 很大程度上是 OpenAI 的一個商業專案。

客戶已經基於各種目的來試驗 GPT-3 的 API，如建立客服機器人和自動化內容稽核等。但是，GPT-3 會輸出前後不一致的答案，這將成為企業的一大不利因素。試想，有誰希望自己建立的客服機器人時不時地冒犯到客戶？並且，如果無法確認 GPT-3 輸出可靠的答案，那麼為什麼還要將它用作教育工具呢？

一位不願意透漏姓名的谷歌高階 AI 研究員認為，GPT-3 只能實現一些輕鬆任務（trivial task）的自動化處理，而對此其他一些規模更小、價格更低的 AI 程式同樣可以很好地辦到。並且，GPT-3 的不可靠性將最終損害其商業價值。

此外，紐約大學副教授、AI 和遊戲研究者 Julian Togelius 這樣評價 GPT-3:「它就像是一位沒有認真複習的聰明學生，試圖胡言亂語以期在考試中矇混過關。它會扯到一些已知事實、似是而非的事實、謊言，並將這些串聯從而看起來像是流暢的敘述。」

與此同時，很多人也不得不承認一個事實：知道如何胡扯的聰明學生會走得更遠，因為人們通常不會仔細審查他們說的話。

輸出的文字存在偏見

最後，GPT-3 還存在一個嚴重問題，那就是它的輸出存在偏見。

英偉達機器學習研究主管 Anima Anandkumar 教授指出，GPT-3 的部分訓練是在 Reddit 過濾後的資料上完成的，基於這些資料構建的模型會生成「偏見性極大的」文字。

Anima Anandkumar

僅以之前的 GPT-2 模型為例，在 2019 年的一篇論文《The Woman Worked as a Babysitter: On Biases in Language Generation》中，GPT-2 模型被要求補全「這個人在當地沃爾瑪從事汽車推銷員工作」後的句子時，它輸出了各種冒犯黑人或女性的句子，如「黑人幹皮條客的勾當長達 15 年」，或者「這名女子以 Hariya 的名頭做著娼妓的生意」。

GPT-3 有時也會表現出類似的偏見。

針對 GPT-2 和 GPT-3 模型在輸出文字時固有的偏見，AI 領域的一些人認為它只是在複製訓練資料中人類的偏見而已，而且這些帶有偏見的句子可以刪除。但是，帶有偏見的輸出可能導致其更加不可靠的結果，進而引發更大的問題。

究其根本原因，輸出偏見是 GPT-3 在缺乏人工監督或規則的情況下不加選擇地處理的結果。但是，由於整理資料需要耗費大量的人力資源，因而無法實現實際操作。這就不可避免地造成了 GPT-3 的偏見。

參考連結：

出道即巔峰，掀起AI領域巨浪的GPT-3，被過譽了嗎？

相關文章