機器之心報導
編輯:蛋醬、杜偉、小舟
是時候重新審視這個「無所不能的」模型了!
GPT-3,「出道即巔峰」界的代表。
2020 年 5 月,OpenAI 高調推出了一款具有 1750 億引數的自迴歸語言模型「GPT-3」,在人工智慧領域掀起了一陣巨浪。從引數量上看,它比當時全球最大的深度學習模型 Turing NLP 大上十倍,從功能上看,它可以答題、翻譯、寫文章,還帶有一些數學計算的能力。
這讓人浮想聯翩:「莫非,真正的 AI 要來了嗎?」
無所不能,還是媒體的過譽?
顧名思義,GPT-3 是 OpenAI 釋出的自動補全工具第三代,這個專案經歷了多年的發展,一直代表著 AI 文字生成方面的最新方向。從許多方面的特徵看,這些進步類似於 2012 年以來 AI 影像方面的飛躍——在那之後,人工智慧的新一輪浪潮洶湧而來。
和所有深度學習系統一樣,GPT-3 也在從資料中尋找模式。為了簡化,該程式已經對龐大的文字集進行了訓練。這些規則對於人類來說是未知的。但是它們被儲存為數十億個 GPT-3 的神經網路的不同節點之間的加權連線。重要的是,在這個過程中,沒有涉及到人工輸入:該程式在沒有任何指導的情況下找出了模式,然後將其用於完成文字提示。
GPT-3 的突出特點是它的執行規模和其驚人的能夠自動完成的任務。
第一代 GPT 釋出於 2018 年,包含 1.17 億個引數。2019 年釋出的 GPT-2 包含 15 億個引數。而 GPT-3 擁有 1750 億個引數,是其前身的 100 多倍,是同類程式的 10 多倍。
自從 GPT-3 推出以來, OpenAI 向社群開放了商業 API,鼓勵大家使用 GPT-3 嘗試更多的實驗。目前是以內測版的形式向使用者出售,功能包括簡單的文字輸入輸出介面等。
所以我們才看到了這些眼花繚亂的案例:
基於問題的搜尋引擎
你可以將它理解為「專注於問答的谷歌」:鍵入問題, GPT-3 就會連結到相關的維基百科地址作為答案。
與歷史人物對話
鑑於 GPT-3 已經接受過大量數字書籍資料的訓練,所以它吸收了很多歷史人物的觀點與知識。這意味著你可以像和哲學家聊天一樣,開啟與 GPT-3 的對話。
當然,你和圖靈、夏農的對話,也許會被哈利波特突然打斷……
基於文字描述生成程式碼
用簡單的文字描述你想選擇的設計元素或頁面佈局, GPT-3 就會彈出相應程式碼。此外,它會自動新增程式碼註釋:
文字樣式轉換
圖源:推特使用者 @Francis Jervis。
GPT-3 可將某種樣式編寫的輸入文字,更改為另一種樣式,不同文體之間自由切換。
繪圖助手
除了生成程式碼,你也可以讓 GPT-3 幫你畫圖、
影像補全
早在 GPT-2 時代,模型的自動補全影像功能就已經實現。如下圖所示,最右一列是原始圖片,最左側是輸入的半張圖片,中間的四列是 GPT-2 自動補全的圖片。
GPT-3 當然也能做到這一點,最令人印象深刻的是,它未曾接受過什麼特定訓練,不再需要微調,就能夠完成這些任務。這也說明了其所具備的模型靈活性。
總體來看,GPT-3 做到了一點:「用過的人都說好」,這表示它已經接近封神的地位。
深度學習之父 Geoffrey Hinton 這樣評價:「如果以 GPT-3 的出色效能推算未來,生命、宇宙和萬物的答案也不過是 4.398 萬億個引數。」
儘管 GPT-3 確實足夠優秀,但釋出一個多月以來,相關領域媒體的鼓吹情緒變得越來越強烈,以致於 OpenAI 的 CEO Sam Altman 在推特上公開表示:「GPT-3 的誇大宣傳是太多了。」
GPT-3:我沒有那麼完美
GPT-3 被誇大宣傳,原因出在哪裡呢?The Verge 上的一篇文章提供了詳細的解讀,指出了 GPT-3 在輸出偏向性、商業價值和資料偏見等方面存在著不可忽視的缺陷。
輸出具有偏向性且會犯低階錯誤
我們可以看到,所有這些示例都需要上下文,這樣才能更好地理解。語言模型(包括 GPT-2)通常的情況是,它們在完成基礎培訓後進行微調,以執行特定的任務。
GPT-3 卻沒有接受過完成任何特定任務的培訓,也不需要任何微調。例如在語法難題中,它需要一些類似於預期輸出型別的示例(稱為 few-shot 學習)。但總的來說,該模型是如此龐大,以至於各種功能都可以巢狀在它的節點上。使用者只需要輸入正確的提示就可以「騙過」它們。
此外,需要看到,上下文帶來的並不只是優點。
首先,有炒作因素。正如 AI 研究者 Delip Rao 在一篇解構關於 GPT-3 炒作文章中指出的那樣,早期的一些軟體 demo 熱衷於吹捧該技術的潛力,而忽略了它的弊端。
其次,GPT-3 在輸出「篩選」上具有偏向性,通常展示起作用的結果,而忽略掉那些不起作用的。所以,GPT-3 的能力在細節上有較多缺陷。仔細檢查輸出就會發現一些沒人會犯的愚蠢而粗俗的錯誤。
舉例而言,在使用 GPT-3 與歷史人物交談的專案中,當使用者與虛擬的賈伯斯交談時,問題是:「你現在在哪裡?」,虛擬的賈伯斯回答說:「我在加利福尼亞州庫比蒂諾的蘋果總部。」這是一個連貫通順的答案,但顯然不是一個值得信賴的答案。
此外,在回答一些瑣碎問題或者基本數學問題時,也能夠發現 GPT-3 犯了類似的錯誤。例如,無法正確地回答 1000000 之前的數字是什麼。
值得商榷的商業價值
此外,GPT-3 的種種輸出錯誤引出了另一個問題:它不可信賴的性質是否會影響其整體效用?畢竟 GPT-3 很大程度上是 OpenAI 的一個商業專案。
客戶已經基於各種目的來試驗 GPT-3 的 API,如建立客服機器人和自動化內容稽核等。但是,GPT-3 會輸出前後不一致的答案,這將成為企業的一大不利因素。試想,有誰希望自己建立的客服機器人時不時地冒犯到客戶?並且,如果無法確認 GPT-3 輸出可靠的答案,那麼為什麼還要將它用作教育工具呢?
一位不願意透漏姓名的谷歌高階 AI 研究員認為,GPT-3 只能實現一些輕鬆任務(trivial task)的自動化處理,而對此其他一些規模更小、價格更低的 AI 程式同樣可以很好地辦到。並且,GPT-3 的不可靠性將最終損害其商業價值。
此外,紐約大學副教授、AI 和遊戲研究者 Julian Togelius 這樣評價 GPT-3:「它就像是一位沒有認真複習的聰明學生,試圖胡言亂語以期在考試中矇混過關。它會扯到一些已知事實、似是而非的事實、謊言,並將這些串聯從而看起來像是流暢的敘述。」
與此同時,很多人也不得不承認一個事實:知道如何胡扯的聰明學生會走得更遠,因為人們通常不會仔細審查他們說的話。
輸出的文字存在偏見
最後,GPT-3 還存在一個嚴重問題,那就是它的輸出存在偏見。
英偉達機器學習研究主管 Anima Anandkumar 教授指出,GPT-3 的部分訓練是在 Reddit 過濾後的資料上完成的,基於這些資料構建的模型會生成「偏見性極大的」文字。
Anima Anandkumar
僅以之前的 GPT-2 模型為例,在 2019 年的一篇論文《The Woman Worked as a Babysitter: On Biases in Language Generation》中,GPT-2 模型被要求補全「這個人在當地沃爾瑪從事汽車推銷員工作」後的句子時,它輸出了各種冒犯黑人或女性的句子,如「黑人幹皮條客的勾當長達 15 年」,或者「這名女子以 Hariya 的名頭做著娼妓的生意」。
GPT-3 有時也會表現出類似的偏見。
針對 GPT-2 和 GPT-3 模型在輸出文字時固有的偏見,AI 領域的一些人認為它只是在複製訓練資料中人類的偏見而已,而且這些帶有偏見的句子可以刪除。但是,帶有偏見的輸出可能導致其更加不可靠的結果,進而引發更大的問題。
究其根本原因,輸出偏見是 GPT-3 在缺乏人工監督或規則的情況下不加選擇地處理的結果。但是,由於整理資料需要耗費大量的人力資源,因而無法實現實際操作。這就不可避免地造成了 GPT-3 的偏見。
參考連結: