摘要:火到現在的ChatGPT到底是什麼?它背後有哪些技術?對於我們的工作和生活會有啥影響?快來一起了解吧~
本文分享自華為雲社群《零基礎解讀ChatGPT:對人類未來工作是威脅還是幫助?》,作者:關耳山石。
前言
年前到現在,一直被ChatGPT的新聞轟炸,現在還越來越熱鬧了,關於ChatGPT技術,關於人與ChatGPT未來發展的討論,網路上眾說紛紜。我就讓同事從海外註冊賬號,直接問了ChatGPT這個問題,最後用Stable Diffusion生成了ChatGPT眼中未來的影像,如下圖:
關於這幅景象,它是這麼描述的:
於是,作為一位嚴謹的“民科”和積極的開發者,立即開始跟隨潮流,瞭解新技術 !希望能與大家一起交流看法,歡迎大家留言討論~
一、ChatGPT是什麼?
1、ChatGPT背後的公司們·OpenAI&微軟
要聊ChatGPT,必須得先聊OpenAI。這本來是一家搞全棧AI創新的非盈利組織,重點研究物理機器人,背後甚至還有鋼鐵俠、彼得·蒂爾、YC總裁Sam(任CEO)等一眾矽谷大佬身影,而GPT系列模型只是眾多研究方向之一。
因為非盈利組織無法進行融資,就搞了個商業的殼子,吸引了微軟投資,最後達成的結果是:OpenAI要優先使用微軟的技術(主要是Azure),微軟得到了OpenAI技術的使用權,這也是ChatGPT與微軟之間的聯絡。
2、ChatGPT背後技術·GPT-3.5
GPT這模型已經發展四代了,目前開放了GPT-3的API(收費的),ChatGPT用的是GPT-3.5,還有一代GPT-4沒見過(據說Bing融合的就是這個)。
這個東西到底是幹啥的,如果感興趣,建議去看李宏毅老師的影片,省流版就是: 文字接龍機器人,一個學了2/3的網際網路知識,整個Wikipedia,多個書籍庫,以及一套“自動補齊”能力的文字接龍機器人。
(引至李宏毅老師的影片)
但是平時我們們用的輸入法基本也會一些文字接龍,但是接起來的感覺前言不搭後語的,為啥ChatGPT就行了呢?網上還找不著GPT-3.5相關的材料,只能研究研究GPT-3的創新點去推斷了:
- 模型相當大
1750億引數,這個引數大概意思是表示每個字/詞出現的可能性。到底有多大,看下圖就有個直觀的感受。
當然,訓練資料量也極其的大,大約是4990億個Token(簡單理解為字/詞),號稱學了2/3個網際網路、整個Wikipedia和幾個書籍庫。按照這個資訊量,一定是高度冗餘的,也是絕對充分了。
(圖片源於網路)
- “加錢”效果相當好
這玩意還有個很神奇的地方,就是有錢能使它推磨,“加價”的效果立竿見影:從趨勢來看,模型越大,效果越好。想必將來還會有更大的模型出來,畢竟有多大錢,GPT能創造多少奇蹟嘛!(DeepMind還做了個推導,算出來一個模型引數與資料量的最優線性關係)
- 通用性相當好
這也算個特別牛的事情,不用進行額外的“調教”,已經學會了幹很多事,簡直是AI工程師的福音。
舉個例子,我們有個相似需求推薦的場景,是基於BERT的基礎模型,加上一堆(上千條)人工標註的訓練資料集,再調優一把,才能使用在我們的場景裡。有了這個大力仔,就不需要這一套了,直接拿來即用。而且還有個比較有意思的,哪怕要教模型做點事,也不需要工程師了,直接在輸入裡寫上寥寥幾個例子(In Context Learning),模型就學會了。
- “意識”湧現相當驚人
學名叫Chain-of-Thought,思維鏈,這是最讓人驚訝和細思極恐的了。
就是當模型足夠大,層數足夠多的時候,居然還就從量變到質變了,產生了一些類人的邏輯思維能力。這玩意我沒看到更深刻的解釋,但是從表象上看,確實會做一些邏輯題了。比如算算數、做一些邏輯推理。
PS:我從網上看到一個資料,列在這裡做個備註 - OpenAI的GPT 3的規模為175B,Google的LaMDA規模為137B,PaLM的規模為540B,DeepMind的Gogher規模為280B等,不一而足。國內也有中文巨型模型,比如清華&智譜GLM規模130B,華為“盤古”規模200B,百度“文心”規模260B,浪潮“源1.0”規模245B。(規模 = 模型的引數規模,單位是Billion)
(圖片源於網路)
3、從GPT-3.5到ChatGPT的意義
如果說GPT-3是理論或底層能力的創新,那麼ChatGPT的創新就是工程和商業層面的,甚至是一個里程碑式的。
- 這是一個“現象級”的產品
首先,我認為,將一個大眾無法理解的技術,變成“現象級”產品,是ChatGPT的最牛創新,使得“AI使能”落入尋常百姓家,與每個人產生了化學反應,所以這絕對是劃時代的。
Google 2022年I/O大會的時候,我也做了一波洞察,看到LaMDA、PaLM的展示,能夠體驗的人極少,感知到其魅力的也是極少的。而ChatGPT做了個簡陋的Playground就迅速搶佔了大眾的心智,看到有資料說,從0~100萬使用者只用了5天,過億隻用了2個月,基本沒有額外的獲客成本。甚至還讓競爭對手意識到,再不搞起早起五更都趕不上晚集了。以至於前幾天Google不僅召回了兩位創始人,快速規劃對話式搜尋的上線,還大筆投資了OpenAI的“港灣”組織 – Anthropic)。
從工程上,我理解ChatGPT是GPT-3.5的一個最佳化應用。簡單說,就是先人肉標註一些GPT-3.5返回資料,以教GPT-3.5說話,然後用強化學習的演算法來持續評價,最終實現了這麼個神奇的模型。(號稱用到了40+的人力來持續教AI做事,據說還有肯亞的低價勞工。)
- 可惜不開源
ChatGPT不開源,GPT-3.5模型也不開源。兩者都不支援在中國使用(包括HK),所以網路上開始有二道販子開始倒賣,或直接接到微信上付費使用。兩者目前都有商業化的手段,GPT模型是直接賣API,ChatGPT出了Plus版,20美刀一個月,優先使用。(GPT-1模型和GPT-2的部分小規模模型是開源的,OpenAI的理由是,大規模模型能力太強大,怕被壞人利用)
二、ChatGPT會對我們產生什麼影響?
首先,我們得先認識到,ChatGPT只是眾多LLM中比較會秀的一個。GPT系列屬於大規模語言模型(LLM)前沿中的一支,DeepMind(搞AlphaGo下圍棋的那公司)、Google、FB,都有自己的優秀實踐。從技術能力上,我覺得還遠沒有到比哪個更好的程度,倒是ChatGPT這一波秀出圈以後,大家找金主爸爸要錢會更容易了,這是個大家都開心的事兒。
關於替代人類工作的討論,用微軟CEO納德拉的話說:“資訊的整合、轉譯和流通,變得廉價”。因此對於所有與資訊整合、轉譯和流通相關的工作,還是會有影響。
侵入“創造性”工作
GPT模型已經離譜到,直接把圖案轉成向量餵給它,就能幫我們補齊圖片(image-gpt)的地步,或許我們曾以為的文案、繪圖,甚至是編碼這些曾經被認為無法被AI替代的工作都將被入侵。
取代“搜尋和問答”
人類在已有知識的搜尋和輸出上,可能永遠無法超過AI。Google已經開始加快LaMDA的速度,然後是微軟繼續加註OpenAI並開始在Bing中融入,再然後StackOverflow(技術類知識問答界的明珠)使用者量降了3200萬,所以我覺得,大模型是靠譜的,替代也是遲早的事兒。
讓AI應用更簡單
ChatGPT的Zero-shot效果顯著(LLM有三種學習方式,Few-shot、One-shot、Zero-shot,講人話就是舉多反一、舉一反一、無中生有),這個能力在語言模型中,影響極其深遠。簡單來說,就是我們如果想在專案中引入AI能力,GPT很好的通用性、極少的“調教”量會使得工程上更簡單。
ChatGPT背後基礎模型能力成熟且強,更多此類大模型被打造出來後,使得千千萬萬的AI加持變成可能,實現“AI使能”落入尋常百姓家。
而且,OpenAI賣通用AI的API的生意還是可以賺錢的(見下圖,1k token大約等於750個字,看著不算貴,預設還有18刀的體驗費用),這裡不得不開個玩笑:AI工程師們,你們把AI的道拓寬了,把自己的道都走窄了啊!
三、ChatGPT並非萬能
從根子上理解,GPT演算法在做的其實是“補齊”工作:即透過學習人類說話的方式,基於上下文,推測後面你打算說啥。具體要回答啥,則完全靠機率計算,靠“違和感”。
如此一來,當下的GPT演算法勢必就有幾個特點:
需要海量的資料、算力和錢
搞個這種演算法,總共燒了多少錢呢?22年是5個億刀,前七年40億刀,最近微軟新加註100億刀。(我看網上說,ChatGPT訓練下來大約1200多萬美金,這樣看來,微軟的投資,還是打好算盤的,錢要花在自己身上才算值)。而且,搜尋引擎和資訊入口企業已佔先機,想要再進入,都需要更多的資料、錢和算力。當然,還需要很多標註人力來調教模型,讓其有人的習慣和三觀。
真實版“人云亦云”:
類比鸚鵡學舌,有響應不代表有思考,響應夠用也不代表足夠 優美。雖然它對通識類的知識理解,效果非常好(何謂通識?就是搜尋引擎能搜出一堆來的知識,網際網路本身資訊已經高度冗餘了,只是作為個體的人類不太清楚罷了),但其實AI也並不知道自己說的對不對,它只是知道,大家一般都這麼說,然後做一些看起來不錯的回答。(思維鏈除外,這個東西細思極恐,只是欺負它目前還沒有那麼成熟)
時效性問題
即目前ChatGPT學的是2021年前的知識,所以不知道2022年世界盃誰贏了,不過對於這個問題是可解的。OpenAI的WebGPT演算法,已經與Bing結合,把最新的資訊投餵給模型,如此一來,它也就知道最新訊息了。(我不清楚具體是如何實現,猜測應該不是去實時訓練基礎模型,而是在上層疊加了什麼)
四、我們如何利用ChatGPT
這個問題我想再擴大一點,擴大到AIGC這個話題上,AIGC已經被Science列為2022年TOP10科學突破,2022年是當之無愧的AIGC元年,結合我們的日常工作,我認為以下方面是可以快速嘗試和引入的:
- 資訊摘要和初級創作:主要用於日常辦公效率提升的場景
從資訊摘要的角度,這就是資訊爆炸時代的良藥,簡要描述為用魔法打敗魔法:直接讓AI從繁雜的資訊中摘取需要的重點內容,節約人力;從初級創作性工作替代上來看, AIGC可以快速幫我們做完早期的工作,更多精力投入“微雕”。
從OpenAI的Codex來看(支撐Github Copilot),對於常用演算法、業務邏輯程式碼、重構(包括跨語言的重構,比如從java改成go)、程式碼註釋(福音啊!)等的程式碼生成能力已經逐漸成型, 我試著面向GPT程式設計,效果相當好:語法工整、註釋清晰、變數準確(除了邏輯錯了一丟丟 – 返回是月末週日,而不是週六)
- 通識類問題解答:主要用於通識類知識搜尋和問答場景,在公開域搜尋資訊,以減少人力搜尋和辨別的過程。
- IT系統擬人化:主要用於人機互動場景,這個用途好像很少有人提,可能太偏門了。我覺得其實AIGC特別合適幫我們IT系統的輸出更“絲滑”、更“擬人”、更“準確”,最佳化機器輸出更加的“人性化”,符合普遍大眾的習慣。
五、寫在最後
“吾生也有涯,而知也無涯。以有涯隨無涯,殆已!”,我覺得古人的智慧足以回答關於人類與ChatGPT未來發展的問題,在我看來,對於ChatGPT,甚至是更寬廣的技術發展來說,科技是為了解放人類的雙手,讓我們用更充足的精力去進行思考、探索和創造,AI應該成為我們的輔助能力,而不是競爭者。