為什麼要學習大模型應用開發?

公众号-JavaEdge發表於2024-04-04

0 prompt engineer

就是prompt工程師它的底層透視。

1 學習大模型的重要性

底層邏輯

人工智慧大潮已來,不加入就可能被淘汰。就好像現在職場裡誰不會用PPT和excel一樣,基本上你見不到。你問任何一個人問他會不會用PPT,他都會說會用,只是說好還是不好。你除非說這個崗位跟電腦完全無關。但凡說能用上電腦的,基本上都會用excel和PPT,你不會用的基本上都被淘汰了,邏輯一樣。

人工智慧雖有一些應用場景,好像跟普通人沒關。如智慧駕駛,人臉識別,好像跟普通人關係不太大,我們都是被動使用。但現在這大模型跟我們每個人都有關,它是一個強大提升工作效率工具。你不會用,將來就好像跟PPT和excel一樣,你就會慢慢的被職場淘汰。

會用就行?好像我們會用大模型,好像很簡單對吧?無論是文心,還是通義千問,還是ChatGPT,用起來很簡單,就是聊天不就OK?但其實不夠,因為我們用它不只是當搜尋引擎,用它是為提升工作效率,所以還要用的好。

啥叫用的好?

如寫文章,PPT,寫excel,可讓他給你進行最佳化。甚至codding,也可讓大模型幫你寫。當然說讓它完全替代你的程式碼不可能,但是你可以用它給你寫一些框架性東西或具體的一個小問題,可直接讓他寫,然後拿過來你試下好不好用,甚至有bug也可以讓他改一下。這樣其實還是大幅度提升工作效率,最終跟PPT和excel依然邏輯類似。

2 大模型的潛力與微調

大模型是人工智慧代表,潛力與使用方式有關。使用好大模型可提高效率,讓人獲得更好的待遇和更多機會。然而大模型潛力要透過微調挖掘,以適應不同場景和需求。大模型出現引發行業需求爆發,尤其隨ChatGPT到來,其問答能力超過臨界值,行業需求將逐漸增加。

你發現PPT和excel用的好的PPT一看就驚豔,excel用的特別熟練,你這個資料分析用的非常的到位,你的待遇會遠遠高於那些用的不好的。大模型也一樣:

  • 用好你可幾倍於原來效率
  • 用不好,你可能跟原來沒什麼區別

差距非常明顯,有人就可一人幹兩人活,那待遇肯定遠高於能保持原效率的人。大模型底層邏輯用的不好:

  • 要麼沒挖掘出大模型潛力,你只是讓他答一些普通問題
  • 要麼就是你這個prompt寫的不好,他就開始胡亂回答
  • 或你問的問題範圍不好,他就開始胡亂回答

這都是用的不好的一些標誌,但最終你用的好。

假設你已透過各種嘗試磨練或技巧學習,把某模型潛力發揮到極致。如文心一言最終能解決所有問題嗎?也不行,就比如大模型不會回答關於你公司內部資訊問題,因為他不知道,他沒訓練過。

當然現在透過知識庫可部分解決這個問題,但知識庫不是萬能,最終他一定會有場景需要訓練。比如說你想調整他回答的語氣,讓他活潑點或更官方點或讓他的回答的更有一些個人特色。這種場景的大模型,因為它沒有訓練這種內容,所以它不可能滿足你的需求。你一定要對它進行訓練,至少微調。

所以總結下,大模型是一個非常強大的一個工具,他作為人工智慧代表,AIGC已來到普通人接受範圍內。這時不僅要會用,還要用好,甚至會微調,才能拉開跟其他職場人員的差距。這樣我們的待遇才能更豐厚,工作機會更多。

你要學習到第二點,就是行業需求爆發了,就是基點以來。自從大模型出現,它的問答能力突破了一個臨界值,就好像都有一個值。以前的模型都在臨界值下徘徊,導致很難商用,只能在學術界兜轉。直到ChatGPT才邁過這閥值,就是我們能接受的門檻,錯誤已經少到一定界限。這種我們會發現他已經可以用了,問什麼問題都能回答上來,這就是基點。這就導致行業需求其實是慢慢會爆發起來的,它應對哪些場景呢?

3 大模型的應用需求

大模型在公司內部問題解決、產品解答、智慧聊天和遊戲NPC等方面的應用需求。大模型的使用可以提高效率、流暢度和人機互動體驗。隨著需求的增加,相關工程師的需求也會提升。

對內

像OAERPCRM等這些問題。平時都是是文件來文件去,比如說裡面OA公司的制度都是文件,某人對某制度疑惑,要麼問HR或行政,整體效率低。未來這些知識其實全部都可接到一個大模型之後,讓一個模型加一個知識庫,效率大大提高。

對外

也有類似客服解答產品的這種需求。每個公司都有自己的一些產品,有些產品邊界、產品引數,還有一些應對各種情況的服務之類的,都要解答客戶問題。現在解決方法一般先建一個官方網站裡面介紹產品,然後後面再對接一個真人客服,當然也會加一些智慧客服內容,但總體效果不如未來使用大模型加知識庫,然後還有智慧聊天,這是最底層需求。但現在人越來越忙,尤其老年人,他們沒人聊天。這需求其實非常大,但一直沒有被滿足。但總之現在大模型出現之後,讓問題看見曙光。

智慧NPC

如遊戲裡面的NPC都是寫死的,都是給你一個邏輯控制,遇到啥場景他做啥回答,完全寫死,所以感覺刻板。如將來遊戲NPC也接入大模型,讓他對話更流暢,更像一個人。但這個遊戲裡面單純的找各種不同人對話,是不是感覺也很有意思?這就是遊戲裡需求,也非常大。尤其未來元宇宙如果出現vr、ar都結合上之後,再加大模型,這裡面的需求場景幾乎無限大。

行業需求爆發,是不是可能讓從事相關工作的工程師的待遇進行提升?肯定的,不過個案不能代替全部。如果說按一個行業,它總體待遇是由供需關係和創造價值量決定的。但是總體上它的需求產生了爆炸性提升。但總體上,網際網路其實就是一個這樣一層一層往上疊代爆發的過程。

4 網際網路行業技術發展與工資待遇

網際網路行業工資待遇高的原因是因為需求突然爆發,供應不足;網際網路是編輯成本低的行業;創造的價值量與使用者量成正比,但成本不成正比;技術的發展也是一層一層往上疊代的,學習最頂層的技術才能拿到高薪。

網際網路剛出,你會個HTML,簡單JS,工資可能就拿非常高。當時根本無法想象的。90年代當時美國網際網路泡沫,你就是會一個HTML這麼簡單的一個東西就可以拿很高的年薪。就是因為這個需求突然爆發了,但供應提不上來,沒那麼多人會,所以工資待遇高。而且網際網路又是一個編輯成本很低的一個行業。就是你只要做出一個東西,可以給全球每一個人看你這個成本,還是原來的成本不會增加太多。

這就是為什麼網際網路行業的待遇容易比較高,這就是創造的價值量跟你的使用者量成正比,但是你的使用者量跟你的成本卻不成正比。你一個使用者成本跟100萬個使用者的成本其實差不了許多,差的可能你就是伺服器成本,但是你主要的研發成本差不多,剩下主要是供需關係。

最開始HML假設在這位置,然後就是ASP、PHP語言剛出來的一些動態頁面,會這些語言你就高薪。再往後安卓出來智慧手機IOS之前可能還有java,java是在這位置後,然後IOS和安卓它是一層一層往上開發,然後到演算法,現在到了大模型。

你現在再學習下面的東西,如HTML,PHP5、java。在現在這個位置學習他,你不可能高薪,因為它已是基礎設施。就好像你開發應用一樣,你現在去開發作業系統,你除非說國產替代,正常來講,微軟和蘋果已把作業系統完全佔領,你不可能再開啟空間。再往上,可能微信QQ之類的,你再開發一個類似的,也不可能打敗它。

跟這個技術的原理是類似的,技術也是一層一層往上疊代。你現在這個角度去學習更底層東西。不是說完全沒必要學,如果說你有時間可學習,這樣知識體系更完整。但僅靠下面知識找工作,高薪不易。你只有拿最頂層技術,可能高薪。

5 大模型訓練經驗與高薪offer

前段時間有個大模型訓練的拿到200萬年薪。工作經驗只有六年。他為什麼那麼高offer?大模型經驗他比較多,大模型其實是GPT3出來後,CP3出來到現在大概也就三年。算上GBTR大概四年,他在阿里就有四年大模型訓練經驗,很難得。

模型本身其實現在工作需求已比較大。如果說它下面遊戲NPC有了一個突破,然後你又比較熟悉這方向,會的人又比較少。這時你立馬就可跳槽拿高薪。

6 為啥透過本套專欄學習大模型?

這套專欄是圍繞大模型,就圍繞ChatGPT進行組織的。首先基於ChatGPT的歷史發展開始講解前後左右:

  • 前就是它的歷史
  • 後講大模型延伸。高效微調訓練也會講,但是我們完整的這個175B的ChatGPT訓練不動。所以用了高效微調訓練了一個6B的模型及launch基於long ten結合一個稍微小一點的語言模型6B的進行一些應用的開發,這是後面
  • 左右就是用到了強化學習,在ChatGPT訓練的時候用到了強化學習。展開講了,避免你產生一些知識盲區。

不像有的說講這個ChatGPT,直接把NLP1大套底層的知識都搬給你,這些也不是沒有用。但是就對你這個主題稍微有點偏會,導致你如果說這個東西肯的時間太長,會讓你興趣喪失,不太利於你學習。這個知識用到的知識我都給你講了也不會顯得過於單薄。

現在關於大模型或ChatGPT專欄,主要還是一些帖子或簡單專欄。它對它的GPT依賴的一些知識,如transformer、歷史,還有強化學習都不太多。這就需要你有比較多的基礎知識才能看那些課。我這課相對降低你對基礎知識要求。講課的時候也包含了一些底層的思考,你也可以認為是一些類比,能讓你更好的理解這些模型到底是在幹什麼。

7 專欄學習方法及收穫

現在訓練專欄都不繫統,因為ChatGPT是新興事物,22年8月才出現,然後11月才火起來,至今不滿2年。要麼它就是基於傳統的NOP專欄,然後再單獨開一張,介紹一下全程PPT。

學習方法

不只是學習本套專欄的方法,其實學習所有人工智慧你都可以用這套方法,就是關於數學公式推導。人工智慧有大量數學公式推導,是人工智慧專欄最大難點,但你數學不好,又想學課咋辦?建議先跳過,先掃兩眼公式,感覺看懂就看看。看不懂跳過,把公式推倒當成黑盒,只記結論及邏輯。但建議你有能力,感覺數學還可,還是把公式啃完,當然了大部分應用開發工程師不需要。

收穫

你會學習到ChatGPT等大模型訓練原理,即:

  • 底層原理
  • 如何訓練

然後掌握多種NLP邏輯,因為fort它是為了解決下游NLP任務的,如文字分類,N12,閱讀理解。所以本套專欄其實都會在介紹port時候介紹一些邏輯。用它們解決下游任務也比較簡單,在程式碼實踐上也進行了一個樣例的操作,可上手解決實際問題。你就拿一個人家訓練好的波爾模型拿過來,然後在下游進行或者分類,或者說NE2,去接一下不同的下游處理,就可以直接上手處理不同的任務,或者一般還是需要微調的,所以你再訓練一下就可以解決實際問題了。

然後理解bert和GPT的模型異同,實際上是bert系列和GPT系列他們的模型的差異。然後學會高效調參技巧,如peft和 Langchain。簡單理解就是你的視訊記憶體不夠時,還能把這個大模型訓起來。如6B13B都可訓起來。最後就學會用浪琴加上不同大模型。如千問模型再加一個知識庫向量資料庫,如face搭建一個自己的智慧助手,這是收穫。

8 適合人群

想從零開始學習chatGPT的人群。基礎不多想學沒關係,數學基礎不是那麼的優秀也可學。可把數學公式推導先跳過。後面對數學有興趣,把這基礎補補再來看也OK

想理解大模型底層原理,以便更好使用大模型。如為什麼大模型避免不了幻覺,就是說它避免不了胡亂回答。你只有理解底層原理才知為什麼,你才能儘量的有指導性去迴避讓他亂答。

想自行訓練和搭建大模型服務的人群。要麼就是外包,你給別公司去搭建。要麼就是你在公司裡其他人都不會,又不想花很多錢去買外包服務。但自己學一下給自己公司搭一個大模型的服務地圖儲備,這個其實還看目的。如只是想學會它底層原理,然後去更好使用這些模型,那懂點點python、linux就可。對技術依賴不多。但如果說你想訓練場,你想玩的更徹底,那我的建議還是要有一些數學基礎,有一些人工智慧基礎。

關注我,緊跟本系列專欄文章,咱們下篇再續!

作者簡介:魔都技術專家,多家大廠後端一線研發經驗,在分散式系統、和大資料系統等方面有多年的研究和實踐經驗,擁有從零到一的大資料平臺和基礎架構研發經驗,對分散式儲存、資料平臺架構、資料倉儲等領域都有豐富實踐經驗。

各大技術社群頭部專家博主。具有豐富的引領團隊經驗,深厚業務架構和解決方案的積累。

負責:

  • 中央/分銷預訂系統效能最佳化
  • 活動&優惠券等營銷中臺建設
  • 交易平臺及資料中臺等架構和開發設計
  • 車聯網核心平臺-物聯網連線平臺、大資料平臺架構設計及最佳化

目前主攻降低軟體複雜性設計、構建高可用系統方向。

參考:

  • 程式設計嚴選網

本文由部落格一文多發平臺 OpenWrite 釋出!

相關文章