大模型綜述來了!一文帶你理清全球AI巨頭的大模型進化史
作者 | 小戲,Python
如果自己是一個大模型的小白,第一眼看到 GPT、PaLm、LLaMA 這些單詞的怪異組合會作何感想?假如再往深裡入門,又看到 BERT、BART、RoBERTa、ELMo 這些奇奇怪怪的詞一個接一個蹦出來,不知道作為小白的自己心裡會不會抓狂?
哪怕是一個久居 NLP 這個小圈子的老鳥,伴隨著大模型這爆炸般的發展速度,可能恍惚一下也會跟不上這追新打快日新月異的大模型到底是何門何派用的哪套武功。這個時候可能就需要請出一篇大模型綜述來幫忙了!這篇由亞馬遜、得克薩斯農工大學與萊斯大學的研究者推出的大模型綜述《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》,為我們以構建一顆“家譜樹”的方式梳理了以 ChatGPT 為代表的大模型的前世今生與未來,並且從任務出發,為我們搭建了非常全面的大模型實用指南,為我們介紹了大模型在不同任務中的優缺點,最後還指出了大模型目前的風險與挑戰。
論文題目:
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
論文連結:
專案主頁:
家譜樹——大模型的前世今生
追尋大模型的“萬惡之源”,大抵應該從那篇《Attention is All You Need》開始,基於這篇由谷歌機器翻譯團隊提出的由多組 Encoder、Decoder 構成的機器翻譯模型 Transformer 開始,大模型的發展大致走上了兩條路,一條路是捨棄 Decoder 部分,僅僅使用 Encoder 作為編碼器的預訓練模型,其最出名的代表就是 Bert 家族。這些模型開始嘗試“無監督預訓練”的方式來更好的利用相較其他資料而言更容易獲得的大規模的自然語言資料,而“無監督”的方式就是 Masked Language Model(MLM),透過讓 Mask 掉句子中的部分單詞,讓模型去學習使用上下文去預測被 Mask 掉的單詞的能力。在 Bert 問世之初,在 NLP 領域也算是一顆炸彈,同時在許多自然語言處理的常見任務如情感分析、命名實體識別等中都刷到了 SOTA,Bert 家族的出色代表除了谷歌提出的 Bert 、ALBert之外,還有百度的 ERNIE、Meta 的 RoBERTa、微軟的 DeBERTa等等。
可惜的是,Bert 的進路沒能突破 Scale Law,而這一點則由當下大模型的主力軍,即大模型發展的另一條路,透過捨棄 Encoder 部分而基於 Decoder 部分的 GPT 家族真正做到了。GPT 家族的成功來源於一個研究人員驚異的發現:“擴大語言模型的規模可以顯著提高零樣本(zero-shot)與小樣本(few-shot)學習的能力”,這一點與基於微調的 Bert 家族有很大的區別,也是當下大規模語言模型神奇能力的來源。GPT 家族基於給定前面單詞序列預測下一個單詞來進行訓練,因此 GPT 最初僅僅是作為一個文字生成模型而出現的,而 GPT-3 的出現則是 GPT 家族命運的轉折點,GPT-3 第一次向人們展示了大模型帶來的超越文字生成本身的神奇能力,顯示了這些自迴歸語言模型的優越性。而從 GPT-3 開始,當下的 ChatGPT、GPT-4、Bard 以及 PaLM、LLaMA 百花齊放百家爭鳴,帶來了當下的大模型盛世。
從合併這家譜樹的兩支,可以看到早期的 Word2Vec、FastText,再到預訓練模型的早期探索 ELMo、ULFMiT ,再到 Bert 橫空出世紅極一時,到 GPT 家族默默耕耘直到 GPT-3 驚豔登場,ChatGPT 一飛沖天,技術的迭代之外也可以看到 OpenAI 默默堅持自己的技術路徑最終成為目前 LLMs 無可爭議的領導者,看到 Google 對整個 Encoder-Decoder 模型架構做出的重大理論貢獻,看到 Meta 對大模型開源事業的持續慷慨的參與,當然也看到從 GPT-3 之後 LLMs 逐漸趨向於“閉”源的趨勢,未來很有可能大部分研究不得不變成 API-Based 的研究。
資料——大模型的力量源泉
歸根結底,大模型的神奇能力是來源於 GPT 麼?我覺得答案是否定的,GPT 家族幾乎每一次能力的躍遷,都在預訓練資料的數量、質量、多樣性等方面做出了重要的提升。大模型的訓練資料包括書籍、文章、網站資訊、程式碼資訊等等,這些資料輸入到大模型中的目的,實質在於全面準確的反應“人類”這個東西,透過告訴大模型單詞、語法、句法和語義的資訊,讓模型獲得識別上下文並生成連貫響應的能力,以捕捉人類的知識、語言、文化等等方面。
一般而言,面對許多 NLP 的任務,我們可以從資料標註資訊的角度將其分類為零樣本、少樣本與多樣本。無疑,零樣本的任務 LLMs 是最合適的方法,幾乎沒有例外,大模型在零樣本任務上遙遙領先於其他的模型。同時,少樣本任務也十分適合大模型的應用,透過為大模型展示“問題-答案”對,可以增強大模型的表現效能,這種方式我們一般也稱為上下文學習(In-Context Learning)。而多樣本任務儘管大模型也可以去覆蓋,但是微調可能仍然是最好的方法,當然在一些如隱私、計算等約束條件下,大模型可能仍然有用武之地。
同時,微調的模型很有可能會面對訓練資料與測試資料分佈變化的問題,顯著的,微調的模型在 OOD 資料上一般表現都非常差。而相應的,LLMs 由於並沒有一個顯式的擬合過程,因此表現要好許多,典型的 ChatGPT 基於人類反饋的強化學習(RLHF)在大部分分佈外的分類與翻譯任務中都表現優異,在專為 OOD 評估設計的醫學診斷資料集 DDXPlus 上也表現出色。
實用指南——任務導向上手大模型
很多時候,“大模型很好!”這個斷言後緊跟著的問題就是“大模型怎麼用,什麼時候用?”,面對一個具體任務時,我們是應該選擇微調、還是不假思索的上手大模型?這篇論文總結出了一個實用的“決策流”,根據“是否需要模仿人類”,“是否要求推理能力”,“是否是多工”等一系列問題幫我們判斷是否要去使用大模型。
而從 NLP 任務分類的角度而言:
傳統自然語言理解
目前擁有大量豐富的已標註資料的很多 NLP 任務,微調模型可能仍然牢牢把控著優勢,在大多數資料集中 LLMs 都遜色於微調模型,具體而言:
文字分類:在文字分類中,LLMs 普遍遜色於微調模型; 情感分析:在 IMDB 與 SST 任務上大模型與微調模型表現相仿,而在如毒性監測任務中,幾乎所有的大模型都差於微調模型; 自然語言推理:在 RTE 與 SNLI 上,微調模型優於 LLMs,在 CB 等資料中,LLMs與微調模型相仿; 問答:在 SQuADv2、QuAC 和許多其他資料集上,微調模型具有更好的效能,而在 CoQA 上,LLMs 表現與微調模型效能相仿; 資訊檢索:LLMs 尚未在資訊檢索領域廣泛應用,資訊檢索的任務特徵使得沒有自然的方式為大模型建模資訊檢索任務; 命名實體識別:在命名實體識別中,大模型仍然大幅度遜色於微調模型,在 CoNLL03 上微調模型的效能幾乎是大模型的兩倍,但是命名實體識別作為一個經典的 NLP 中間任務,很有可能會被大模型取代。
總之,對於大多數傳統自然語言理解的任務,微調模型的效果更好。當然 LLMs 的潛力受限於 Prompt 工程可能仍未完全釋放(其實微調模型也並未達到上限),同時,在一些小眾的領域,如 Miscellaneous Text Classification,Adversarial NLI 等任務中 ,LLMs 由於更強的泛化能力因而具有更好的效能,但是在目前而言,對於有成熟標註的資料而言,微調模型可能仍然是對傳統任務的最優解。
自然語言生成
相較於自然語言理解,自然語言生成可能就是大模型的舞臺了。自然語言生成的目標主要是建立連貫、通順、有意義的符合序列,通常可以分為兩大類,一類是以機器翻譯、段落資訊摘要為代表的任務,一類是更加開放的自然寫作,如撰寫郵件,編寫新聞,創作故事等的任務。具體而言:
文字摘要:對於文字摘要而言,如果使用傳統的如 ROUGE 等的自動評估指標,LLMs 並沒有表現出明顯的優勢,但是如果引入人工評估結果,LLMs 的表現則會大幅優於微調模型。這其實表明當前這些自動評估指標有時候並不能完整準確的反應文字生成的效果; 機器翻譯:對於機器翻譯這樣一個擁有成熟商業軟體的任務而言,LLMs 的表現一般略遜於商業翻譯工具,但在一些冷門語言的翻譯中,LLMs 有時表現出了更好的效果,譬如在羅馬尼亞語翻譯英語的任務中,LLMs 在零樣本和少樣本的情況下擊敗了微調模型的 SOTA; 開放式生成:在開放式生成方面,顯示是大模型最擅長的工作,LLMs 生成的新聞文章幾乎與人類編寫的真實新聞無法區分,在程式碼生成、程式碼糾錯等領域 LLMs 都表現了令人驚訝的效能。
知識密集型任務
知識密集型任務一般指強烈依賴背景知識、領域特定專業知識或者一般世界知識的任務,知識密集型任務區別於簡單的模式識別與句法分析,需要對我們的現實世界擁有“常識”並能正確的使用,具體而言:
閉卷問答:在 Closed-book Question-Answering 任務中,要求模型在沒有外部資訊的情況下回答事實性的問題,在許多資料集如 NaturalQuestions、WebQuestions、TriviaQA 上 LLMs 都表現了更好的效能,尤**其在 TriviaQA 中,零樣本的 LLMs 都展現了優於微調模型的性別表現; 大規模多工語言理解:大規模多工語言理解(MMLU)包含 57 個不同主題的多項選擇題,也要求模型具備一般性的知識,在這一任務中最令人印象深刻的當屬 GPT-4,在 MMLU 中獲得了 86.5% 的正確率。
值得注意的是,在知識密集型任務中,大模型並不是百試百靈,有些時候,大模型對現實世界的知識可能是無用甚至錯誤的,這樣“不一致”的知識有時會使大模型的表現比隨機猜測還差。如重定義數學任務(Redefine Math)中要求模型在原含義和從重新定義的含義中做出選擇,這需要的能力與大規模語言模型的學習到的知識恰恰相反,因此,LLMs 的表現甚至不如隨機猜測。
推理任務
LLMs 的擴充套件能力可以極大的增強預訓練語言模型的能力,當模型規模指數增加時,一些關鍵的如推理的能力會逐漸隨引數的擴充套件而被啟用,LLMs 的算術推理與常識推理的能力肉眼可見的異常強大,在這類任務中:
算術推理:不誇張的說,GPT-4 的算術與推理判斷的能力超過了以往的任何模型,在 GSM8k、SVAMP 和 AQuA 上大模型都具有突破性的能力,值得指出的是,透過思維鏈(CoT)的提示方式,可以顯著的增強 LLMs 的計算能力; 常識推理:常識推理要求大模型記憶事實資訊並進行多步推理,在大多數資料集中,LLMs 都保持了對微調模型的優勢地位,特別在 ARC-C (三-九年級科學考試困難題)中,GPT-4 的表現接近 100%(96.3%)。
除了推理之外,隨著模型規模的增長,模型還會浮現一些 Emergent Ability,譬如符合操作、邏輯推導、概念理解等等。但是還有類有趣的現象稱為“U形現象”,指隨著 LLMs 規模的增加,模型效能出現先增加後又開始下降的現象,典型的代表就是前文提到的重定義數學的問題,這類現象呼喚著對大模型原理更加深入與細緻的研究。
總結——大模型的挑戰與未來
大模型必然是未來很長一段時間我們工作生活的一部分,而對於這樣一個與我們生活高度同頻互動的“大傢伙”,除了效能、效率、成本等問題外,大規模語言模型的安全問題幾乎是大模型所面對的所有挑戰之中的重中之重,機器幻覺是大模型目前還沒有極佳解決方案的主要問題,大模型輸出的有偏差或有害的幻覺將會對使用者造成嚴重後果。同時,隨著 LLMs 的“公信度”越來越高,使用者可能會過度依賴 LLMs 並相信它們能夠提供準確的資訊,這點可以預見的趨勢增加了大模型的安全風險。
除了誤導性資訊外,由於 LLMs 生成文字的高質量和低成本,LLMs 有可能被利用為進行仇恨、歧視、暴力、造謠等攻擊的工具,LLMs 也有可能被攻擊以未惡意攻擊者提供非法資訊或者竊取隱私,據報導,三星員工使用 ChatGPT 處理工作時意外洩漏了最新程式的原始碼屬性、與硬體有關的內部會議記錄等絕密資料。
除此之外,大模型是否能應用於敏感領域,如醫療保健、金融、法律等的關鍵在於大模型的“可信度”的問題,在當下,零樣本的大模型魯棒性往往會出現降低。同時,LLMs 已經被證明具有社會偏見或歧視,許多研究在口音、宗教、性別和種族等人口統計類別之間觀察到了顯著的效能差異。這會導致大模型的“公平”問題。
最後,如果脫開社會問題做個總結,也是展望一下大模型研究的未來,目前大模型主要面臨的挑戰可以被歸類如下:
實踐驗證:當前針對大模型的評估資料集往往是更像“玩具”的學術資料集,但是這些學術資料集無法完全反應現實世界中形形色色的問題與挑戰,因此亟需實際的資料集在多樣化、複雜的現實問題上對模型進行評估,確保模型可以應對現實世界的挑戰; 模型對齊:大模型的強大也引出了另一個問題,模型應該與人類的價值觀選擇進行對齊,確保模型行為符合預期,不會“強化”不良結果,作為一個高階的複雜系統,如果不認真處理這種道德問題,有可能會為人類醞釀一場災難; 安全隱患:大模型的研究要進一步強調安全問題,消除安全隱患,需要具體的研究確保大模型的安全研發,需要更多的做好模型的可解釋性、監督管理工作,安全問題應該是模型開發的重要組成部分,而非錦上添花可有可無的裝飾; 模型未來:模型的效能還會隨著模型規模的增加而增長嗎?,這個問題估計 OpenAI 也難以回答,我們針對大模型的神奇現象的瞭解仍然十分有限,針對大模型原理性的見解仍然十分珍貴。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70027828/viewspace-2952712/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 讓大模型不再「巨無霸」,這是一份最新的大模型引數高效微調綜述大模型
- 整合 200 多項相關研究,大模型「終生學習」最新綜述來了大模型
- 北大高歌教授綜述:生物資訊與大語言模型模型
- 調研180多篇論文,這篇綜述終於把大模型做演算法設計理清了大模型演算法
- 大模型走向物理世界,TeleAI 釋出大模型驅動的具身智慧綜述,覆蓋300篇文獻大模型AI
- 大模型訓練效率是推動大模型進化關鍵大模型
- 最懂工業的大模型來了!思謀釋出全球首個工業多模態大模型大模型
- 萬字綜述大模型高效推理:無問芯穹與清華、上交最新聯合研究全面解析大模型推理最佳化大模型
- 蛋白質語言模型綜述模型
- 清華大學圖神經網路綜述:模型與應用神經網路模型
- 帶你瞭解大語音模型的前世今生模型
- 非Transformer架構站起來了!首個純無注意力大模型,超越開源巨頭Llama 3.1ORM架構大模型
- LLM大語言模型演算法特訓,帶你轉型AI大語言模型演算法工程師模型演算法AI工程師
- Spring AI(使用Ollama大模型進行AI驗證)SpringAI大模型
- 大模型的未來在哪?大模型
- FBI-LLM低位元基礎大語言模型來了,首個完全從頭訓練的二值化語言模型模型
- 大語言模型如何助力藥物開發? 哈佛團隊最新綜述模型
- AI大模型的白堊紀AI大模型
- RNN神經網路模型綜述RNN神經網路模型
- AI大模型時代,人才的需求已經變了AI大模型
- 手搓大模型Task04:如果評估你的大模型大模型
- 綜述:一文帶你瞭解情感分析的方法有幾種
- 各種AI模型拿來就能用!五大深度學習模型庫大盤點AI模型深度學習
- 「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭CNN深度學習
- 大模型學習進階 5-大模型測評大模型
- 大模型對AI研究有害?大模型AI
- Ai qwen大模型本地部署AI大模型
- 綜述 | 農業大模型:關鍵技術、應用分析與發展方向大模型
- 以假亂真,天工音樂大模型帶來顛覆式AI體驗大模型AI
- 面向程式碼語言模型的安全性研究全新進展,南大&NTU聯合釋出全面綜述模型
- 新火種AI | 馬斯克的AI大模型來了!其他AI不能回答的問題,它能回答嗎?AI馬斯克大模型
- 大模型是否有推理能力?DeepMind數月前的論文讓AI社群吵起來了大模型AI
- 不知道資料模型?一文帶你瞭解資料模型!模型
- 一鍵部署本地AI大模型AI大模型
- StarCoder: 最先進的程式碼大模型大模型
- 【大模型】模型安全大模型
- 大模型學習進階 1-搭建一個開源大模型大模型
- WHALE來了,南大周志華團隊做出更強泛化的世界模型世界模型