文 | 王思若

來源：夕小瑤的賣萌屋

前言

誠然，從關聯式資料庫到網際網路資訊檢索，每一次知識表示和呼叫方式的躍遷都會在科技史引起一場巨大的技術變革。當ChatGPT釋出之後，生成式AI成了新的技術正規化，這場變革從微軟、Google、百度這一眾搜尋引擎開始，星火燎原，越來越多的工作將會發生不可逆轉的改變，有研究聲稱至少80%的工作都將或多或少受其影響^[1]。

在這場狂歡之中，有聲稱5000萬美金入局的投資者，有李沐等技術大牛離職做大模型創業，聲音越來越嘈雜，大有風雨欲來之勢。主流的聲音慢慢從技術的探討變成了“AI取代人類”的惶恐不安，警告人們‘不要溫和地走入那個良夜’，更不乏有人開始去思考人類是否可以創造一個全知全能的神這樣的終極命題。

有人狂喜，聲稱自己是ChatGPT的忠實擁躉；有人毫不關心，認為又是一個資本鼓吹的泡沐。無論哪種視角，這都將是一場勢不可擋的技術浪潮，在這裡，我們追溯從GPT-1到GPT-4的時間線^[2]，挑撥縷析地探討一下GPT-4的前世、今生和未來!

一、前世

如果追溯GPT系列發展的時間線，我們會發現這是一項橫跨五年的技術探索，從GPT-2到GPT-3，其實也只是在幾乎不改變模型框架的基礎上從15億的引數量迭代到1750億，不同於Google推出T5、Switch Transformer和PaLM等一系列大模型的賽馬機制，OpenAI‘矢志不渝’地堅持著GPT路線。

這種堅持在現在看來也尤為不易。2020年，OpenAI提出了大模型的縮放法則(Scaling Laws)，增大引數規模可以極大提升模型效能一時成為了“金科玉律”，由此也開啟了煉大模型的‘狂飆’時代。1760億引數的BLOOM、5300億的MT-NLG、5400億的PaLM、更有‘貪心者’用MoE(Mixture of Experts)架構強行將引數量堆疊到了萬億，當時關於GPT-4模型引數量將達到100萬億的謠言一時甚囂塵上。

但如果把視角拉到22年年中，我們會發現國內幾乎所有人都在造大模型狂刷SOTA之後迷茫了，學術界‘fine-tune’和‘promot’的百般招式皆已用上，工業界又難以對大模型落地，‘頂不了天，立不了地’，留下的只是盲目跟風追求大模型之後的“一地雞毛”。一方面Epoch AI 發文稱語言資料將在2026年耗盡^[3]，另一方面越來越多的inverse scaling現象（逆向縮放，即模型規模越大，效果越差）不斷被發現^[4]，超大模型的前進道路似乎瀰漫著茫茫迷霧。

然而，當繼續加大模型規模並在超過某個閾值之後，模型效能出現了井噴式的能力提升，這種神奇的現象被稱作大模型的湧現性。例如，隨著模型規模的進一步提升，研究人員發現模型準確率會呈現“ U 型”曲線^[5]，超大規模的模型似乎在某個臨界點之後不可預料得表現出極為強大的能力。新的進步與發現似乎完全改變了遊戲規則，很多提示增強(augmented prompting)技術在小模型上並沒有效果，但在模型達到某個規模之後會突然有效。

在此背景下，OpenAI將RLHF(人類反饋強化學習，Reinforcement Learning from Human Feedback)技術應用到GPT-3模型中，簡而言之，RLHF 將預訓練語言模型按照人類反饋進一步微調以符合人類偏好。看似簡單，RLHF這條道路，OpenAI同樣走了五年^[6]。

2017年，OpenAI提出該技術，少量人類反饋作為獎勵函式得以讓系統處理複雜任務，在Atari遊戲上表現出不錯的效果，‘小火柴棍’學會了後空翻^[7]。
2021年，OpenAI利用該技術進行摘要生成，僱傭了80 位人工標註者生成了6.48萬條資料對模型進行調校，粗略計算僅標註資料的成本就在300萬左右^[8,9]。，這一工作證明了RLHF確實能夠在語言模型上奏效，可以針對人類價值觀等模糊的目標進行最佳化。
2022年，OpenAI將RLHF應用於GPT-3並開發出InstructGPT，相對於GPT-3更善於遵循使用者意圖，雖然引數量只有1.3B，比175B GPT-3模型引數少了100多倍，但更加遵循指令和事實，並大幅度減少有毒輸出(toxic generation)，微調成本更是隻有GPT-3的2%。

RLHF應用開發ChatGPT的技術路線

OpenAI宣稱RLHF是一種“有效提升AGI(通用人工智慧系統)與人類意圖對齊的技術”，但OpenAI對齊團隊負責人Jan Leike坦言，優越對齊能力的出現並未有堅實的理論基礎，換言之，該方法只是秉持著“評估比生成更容易”的動機而不是正式的理論。

迴歸主題，基於RLHF技術，OpenAI構造了ChatGPT。當然，更重磅的新聞是所有人翹首以盼的GPT-4來了，OpenAI創始人Sam Altman開門見山的簡紹說這是我們迄今為止功能最強大的模型，一個史上最強大的多模態模型！

一場技術革命似乎開始了。《財富》雜誌描述其為Netscape Navigator（網景）時刻：在一代人的時間中總有一種產品的出現，它將工程技術從昏暗的地下室、書呆子們臭氣熏天的臥室和愛好者們孤獨的洞穴中發射出來，變成了你的祖母都知道如何使用的東西。早在1990年就誕生了網路瀏覽器，但直到1994年Netscape Navigator（網景瀏覽器）的出現，大多數人才發現了網際網路。我們現在迎來了AI的Netscape Navigator 時刻！

二、今生

接著上述時間線：

3月14日，GPT-4釋出，OpenAI給出了技術報告和3分鐘的預告片。GPT-4支援多模態，能夠識圖、生成歌詞、做網站，並且刷爆了人類社會各個領域的考試，已經達到了哈佛、史丹佛等頂尖高校的水平。現已整合到微軟New Bing和ChatGPT Plus。
3月16日，OpenAI 的首席科學家兼聯合創始人Ilya Sutskever表示OpenAI不會分享更多關於GPT-4的資訊。Sutskever表示出於競爭和安全的考量，當然主要是同行的競爭，當被問及為什麼 OpenAI 改變了分享其研究成果的方式時，Sutskever 簡單地回答說：坦率地說，我們錯了。如果你像我們一樣相信，在某個時候，人工智慧將變得極其強大，那麼開源就沒有意義了，我完全希望在幾年內，每個人都會完全清楚開源 AI 是不明智的^[10]。
3月17日，微軟Microsoft 365全面引入生成式AI助手Copilot，將GPT-4整合到了Word、Excel、PowerPoint、Outlook和Teams等應用中，使用者可以提出問題並提示AI撰寫草稿、製作簡報、編輯電子郵件、製作簡報、總結會議等。
3月20日，OpenAI釋出了GPT模型和技術對勞動力市場潛在影響的論文，預計將影響80%的工作崗位^[11]。

已構建好技術壁壘的OpenAI開始拒絕技術開源，甚至DeepMind 執行長 Demis Hassabis也同樣表示：我們正在進入一個時代，我們必須開始考慮貪圖便宜的人，或者那些正在閱讀但沒有為該資訊庫做出貢獻的人，這也包括民族國家，這很明顯，你可能會想到誰。他表示人工智慧行業公開發布其發現的文化可能很快需要結束^[12]。

不知道大家對此作何感想？

這裡OpenAI 的前政策主管 Jack Clark 做了我的嘴替，Clark強烈反對GPT-4，他表示：事情變得越來越奇怪，這更像是一個政治時刻，而不是技術時刻，GPT-4 基本上是透過計算呈現的硬實力政治，GPT-4 無疑會引起社會變革，但同樣會因壟斷引發重大的政治反彈^[13]。

迴歸到技術本身，OpenAI表示在釋出GPT-4之前，他們花費了八個月進行安全研究、風險評估和迭代，因此，GPT-4的初始可用日期是在2022年8月。GPT-4是包括視覺語言模型元件的大型語言模型，類似於DeepMind的Flamingo模型，輸入可以是文字或影像，但所有的輸出都是文字。

GPT-4 的資料收集是由 Wojciech Zaremba（資料集團隊經理）和 Qiming Yuan（資料集採購和處理負責人）領導的一項艱鉅任務。資料集貢獻來自一個由 35 名 OpenAI 員工組成的團隊。在預訓練階段，OpenAI過濾了 GPT-4 的資料集組合，以專門減少不適當的色情文字內容的數量。透過結合內部訓練的分類器和基於詞典的方法來識別被標記為極有可能包含不當色情內容的文件。

OpenAI 擁有利用來自包括谷歌在內的競爭對手的其他資料集的經驗^[15], 依賴最先進的 DeepMind MassiveText 和 Google Infiniset資料集，且OpenAI 與 Microsoft 的合作伙伴關係允許訪問 GitHub 等大型資料集，我們可以推測GPT-4可能是在1.7T-2.9T的文字tokens上進行的訓練，模型引數量包括800-1400億的語言模型引數+200億的視覺模型引數。

此外，GPT-4的文字生成長度被顯著提高，一個token通常對應大約 4 個字元，而1個漢字大致是2~2.5個token，在GPT-4之前，token的限制大約在4096左右，大約相當於3072個英文單詞，一旦對話的長度超過這個限制，模型就會生成不連貫且無意義的內容，到了GPT-4其最大的token數是32768個，大約相當於24576個單詞，相當於48頁文字，生成長度被擴大了八倍。

GPT-1到GPT-4的上下文視窗數量，注：目前GPT-4限制的上下文長度限制為8192個token，允許32768個token的版本名為GPT-4-32K，目前暫時限制了訪問許可權。

就價格而言，GPT-4 比 ChatGPT 貴大約 30 倍，比 GPT-3 davinci 貴大約 3 倍。

三、未來

我們可以從GPT-4的結果就可以看到其巨大的潛力，美國高考SAT：1410（滿分1600，前6%），美國大學預科考試AP：100%（5/5）。有人在去年8月就獲得了GPT-4的訪問許可權，並用其寫了一本書-----Amplifying our Humanity through AI（透過人工智慧放大我們的人性）^[15,16]。

當然未來的潛力遠不止如此，我們可以從和GPT-4的合作企業管中窺豹。

和教育行業合作，去一探學習的未來，和可汗學院（khan academy,教育性非盈利組織）合作推出Khanmigo，和多鄰國（Duolingo，語言學習軟體）推出Duolingo Max，讓AI去輔導學生作業和學習外語。
和IT行業合作，整合到微軟Bing和Microsoft 365全家桶上，重新定義了生產力；釋出AI 聊天機器人Fin等，這將會是第一個最懂你的AI機器人；整合到筆記軟體Mem中，輔助我們去暢想未來，探索未知。
和專業服務公司合作，聯合波士頓諮詢公司合作推出BCG X，彙集了先進的技術知識和雄心勃勃的企業家精神，可幫助組織開展下一次重大投資並實現大規模創新。
在其合作名單中，甚至有可口可樂公司，摩根士丹利等金融服務公司和冰島等政府機構。

這一次，工作正規化將要改變，我們可以將越來越多的事務託付給AI完成，人類將會有更多的自由和可能，甚至某一天人類可能會將思考的權力也讓渡給了AI，那個時候我們就要去重新追尋人類的價值，而這對於我們而言，依然有很長的路要走！

賣萌屋作者：王思若
東北大學研究生，投身AI4Science領域的演算法工程師，希望能夠在生命科學領域做出一點點推進，揭示生命的旅程枯燥又有趣！知乎ID：王思若
作品推薦
微軟：我已把視訊記憶體最佳化做到了極致，還有誰？
ICLR Spotlight｜Facebook提出無損INT8最佳化器，單機可以跑千億引數模型了？？
推翻OpenAI結論，DeepMind重新定義預訓練的引數和規模關係！

參考文獻：
[1]
[2]
[3]Villalobos, Pablo, et al. “Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning.” arXiv preprint arXiv:2211.04325 (2022).
[4]
[5]Wei, Jason, Yi Tay, and Quoc V. Le. “Inverse scaling can become U-shaped.” arXiv preprint arXiv:2211.02011 (2022).
[6]https://mp.weixin.qq.com/s/pjmOJdlcODnH5sXu3WWLGw
[7]Christiano, Paul F., et al. “Deep reinforcement learning from human preferences.” Advances in neural information processing systems 30 (2017).
[8]Stiennon, Nisan, et al. “Learning to summarize with human feedback.” Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
[9]
[10]
[11]GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models.
[12]
[13]
[14]Ouyang, Long, et al. "Training language models to follow instructions with human feedback." arXiv preprint arXiv:2203.02155 (2022).
[15]
[16]

GPT-4的前世、今生和未來！

前言

一、前世

二、今生

三、未來

[1]

[2]

[3]Villalobos, Pablo, et al. “Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning.” arXiv preprint arXiv:2211.04325 (2022).

[4]

[5]Wei, Jason, Yi Tay, and Quoc V. Le. “Inverse scaling can become U-shaped.” arXiv preprint arXiv:2211.02011 (2022).

[6]https://mp.weixin.qq.com/s/pjmOJdlcODnH5sXu3WWLGw

[7]Christiano, Paul F., et al. “Deep reinforcement learning from human preferences.” Advances in neural information processing systems 30 (2017).

[8]Stiennon, Nisan, et al. “Learning to summarize with human feedback.” Advances in Neural Information Processing Systems 33 (2020): 3008-3021.

[9]

[10]

[11]GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models.

[12]

[13]

[14]Ouyang, Long, et al. "Training language models to follow instructions with human feedback." arXiv preprint arXiv:2203.02155 (2022).

[15]

[16]

相關文章