大模型落地實戰指南:從選擇到訓練,深度解析顯示卡選型、模型訓練技、模型選擇巧及AI未來展望—打造AI應用新篇章

汀、人工智能發表於2024-03-26

大模型落地實戰指南:從選擇到訓練,深度解析顯示卡選型、模型訓練技、模型選擇巧及AI未來展望---打造AI應用新篇章

0.前言大模型發展史

  • 早期階段(1950s~1980s)

在1950年代初期,人們開始嘗試使用計算機處理自然語言文字。然而,由於當時的計算機處理能力非常有限,很難處理自然語言中的複雜語法和語義。隨著技術的發展,自然語言處理領域在20世紀60年代和70年代取得了一些重要的進展。例如,1970年,美國賓夕法尼亞大學的Adele Goldberg和David Robson建立了一個名為Lunenfeld Project的系統,它可以進行自動翻譯。同時,中國科學院自動化研究所也在20世紀70年代開始研究自然語言處理技術,主要集中在機器翻譯領域。

  • 中期階段(1980s~2010s)

進入20世紀80年代和90年代,自然語言處理領域的研究更加深入。例如,1981年,Xerox PARC的研究人員Ron Kaplan和Martin Kay開發了一個名為Lexical Functional Grammar(LFG)的語法框架,這為後續的NLP研究提供了重要的理論基礎。在這個階段,NLP技術開始逐漸應用於實際場景中,如機器翻譯、語音識別和文字分類等。

  • 現代階段(2010s~至今)

進入21世紀後,尤其是近年來,NLP大模型的發展迎來了革命性的突破。這主要得益於深度學習技術的快速發展和計算能力的提升。在這一階段,預訓練模型成為NLP領域的主流方法。

其中,2018年是一個重要的時間節點。在這一年,BERT模型的出現標誌著NLP大模型時代的開始。BERT是一個基於Transformer結構的雙向編碼器模型,透過在大量文字資料上進行預訓練,學習到了豐富的語言知識和上下文資訊。隨後,GPT系列模型也相繼問世,這些模型在預訓練的基礎上,透過微調可以適應各種NLP任務,取得了顯著的效能提升。

此外,隨著計算資源的不斷豐富和模型結構的最佳化,NLP大模型的規模也在不斷擴大。從最初的幾百萬引數到現在的幾十億甚至上百億引數,這些大模型在效能上不斷重新整理記錄,推動了NLP技術的快速發展。

NLP領域主要模型的發展歷程可以大致分為如下幾個階段:

  1. 早期研究階段:側重於設計人工編寫的規則和語法,如基於規則和知識的方法等;
  2. 統計方法崛起:引入數學和統計方法,側重於從大規模語料庫中自動學習語言規律,如隱馬爾可夫模型(HMM)、條件隨機場(CRF)等;
  3. 深度學習革命:基於神經網路模型的方法,強調自動提取特徵和端到端的訓練,如迴圈神經網路(RNN)、長短時記憶網路(LSTM)、卷積神經網路(CNN)等;
  4. 預訓練模型興起:基於大規模資料和深度學習模型的預訓練方法,提升了NLP任務的效能,如BERT、GPT、T5等。

可以發現,NLP領域的主要模型,從深度學習階段開始,經過預訓練模型興起,直到如今的各種聊天大模型的爆發,NLP模型一直在向著引數量更多、通用性更強的方向發展。

  1. 左圖介紹:語言模型(LM)是一種利用自然文字來預測詞(Token)順序的機器學習方法。大語言模型(LLM)則通常指引數數量達到億級別的神經網路語言模型,例如:GPT-3、GPT-4、PaLM2等,僅有左下方的灰色分支為非Transformer模型,其餘顏色的分支均為基於Transformer的模型

  2. 自然語言處理是電腦科學、人工智慧和語言學的交叉領域,研究如何讓計算機處理、理解和生成人類語言。目標是:能夠實現人機互動、自動翻譯、資訊檢索、情感分析等任務。應用領域包括:搜尋引擎、社交媒體監測、智慧客服、新聞生成等。

1.顯示卡選擇篇-硬體配置

先說結論,大模型的訓練用 4090 是不行的,但推理(inference/serving)用 4090 不僅可行,在價效比上還能比 H100 稍高。4090 如果極致最佳化,價效比甚至可以達到 H100 的 2 倍。

  • 看連結相關文章超詳細講解

英偉達系列顯示卡大解析B100、H200、L40S、A100、A800、H100、H800、V100如何選擇,含架構技術和效能對比帶你解決疑惑

如何選擇GPU顯示卡,帶你對比A100/H100/4090價效比、訓練/推理該使用誰?

2.大模型訓練流程

訓練一個大模型,到底需要投入多少塊,需要多少資料,訓練多長時間能達到一個不錯的效果? 本文引用靠譜的資料,來回答這些問題。

  • 全流程訓練

大模型的訓練,簡單來說,分為PretrainingFinetuning微調,Pretraining需要非常多的資料和算力,Finetuning相對來說對算力的要求比較低。

  • LoRA :基本原理是凍結預訓練好的模型權重引數,在凍結原模型引數的情況下,透過往模型中加入額外的網路層,並只訓練這些新增的網路層引數
  • P-tuning v1 微調方法是將 Prompt 加入到微調過程中,只對 Prompt 部分的引數進行訓練,而語言模型的引數固定不變
  • Freeze :即引數凍結,對原始模型部分引數進行凍結操作,僅訓練部分引數
  • RLHF(OpenAI)2022.12 (Reinforcement Learning fromHuman Feedback,人類反饋強化學習)起到的作用是,透過將人類的反饋納入訓練過程,為機器提供了一種自然的、人性化的互動學習過程。
    • RRHF(阿里巴巴)2023.4
    • RLTF(騰訊)2023.7
    • RRTF(華為)2023.7
    • RLAIF(谷歌)2023.9

百度千帆大模型訓練全流程Mass:

2.1 SFT監督微調&RLHF講解

  • 人工智慧大語言模型微調技術:SFT 監督微調、LoRA 微調方法、P-tuning v2 微調方法、Freeze 監督微調方法:

  • 人工智慧LLM模型:獎勵模型的訓練、PPO 強化學習的訓練、RLHF

2.2 Prompt工程原理篇

  • 大語言模型的預訓練[3]之Prompt Learning:Prompt Engineering、Answer engineering、Multi-prompt learning詳情

  • 大語言模型的預訓練[4]:指示學習Instruction Learning:Entailment-oriented、PLM oriented、human-oriented以及和Prompt工程區別

  • 大語言模型的預訓練[5]:語境學習、上下文學習In-Context Learning:精調LLM、Prompt設計和打分函式(Scoring Function)設計以及ICL底層機制等原理詳解

  • 大語言模型的預訓練[6]:思維鏈(Chain-of-thought,CoT)定義原理詳解、Zero-shot CoT、Few-shot CoT 以及在LLM上應用

2.3 Prompt工程實踐篇

  • Prompt進階系列1:LangGPT(從程式語言反思LLM的結構化可複用提示設計框架)

  • Prompt進階2:LangGPT(構建高效能Prompt策略和技巧)--最佳實踐指南

  • Prompt進階3:LangGPT(構建高效能質量Prompt策略和技巧2)--穩定高質量文案生成器

  • Prompt進階系列4:LangGPT(構建高效能Prompt實踐指南)--結構化Prompt

  • Prompt進階系列5:LangGPT(提示鏈Prompt Chain)--提升模型魯棒性

  • Prompt工程全攻略:15+Prompt框架一網打盡(BROKE、COAST、LangGPT)、學會提示詞讓大模型更高效

3.大模型如何選擇

3.1 大模型能力對比

國內外依然有一定差距。GPT4-Turbo總分92.71分領先,高於其他國內大模型及國外大模型。其中國內最好模型文心一言4.0總分87.75分,距離GPT4-Turbo有4.96分,距離GPT4(網頁)有2.61分的差距。本次最新上榜的Google開源模型的Gemma-7b-it表現不佳,可能的原因之一是訓練資料中中文語料佔比較少。

  • 國內大模型歷月前三甲

SuperCLUE月榜首位的大模型有5個。分別是文心一言、BlueLM、SenseChat3.0、Baichuan2-13B-Chat、360智腦。其中,百度的文心一言登頂SuperCLUE月榜的次數最多,分別在7月、11月、12月、24年2月取得了SuperCLUE最好成績。

3.2 開源模型對比推薦

總體上大版本(如34B)的模型優於中小版本(13B、6B)的開源模型,更大的版本(如72B)的模型表現要更好。但也有小模型好於大模型的情況,如qwen1.5的70億引數版本好於一些130億引數的大模型,面壁智慧的MiniCPM-2b好於智譜AI的ChatGLM3-6B

大廠中開源的主導力量是阿里雲,在各個引數量級中國都有模型開源。但眾多的創業公司是開源模型的主力,如智譜AI、百川智慧、零一萬物、元象科技、面壁智慧。

3.2 Qwen 不同大小模型的訓練、推理配置

  • 通義千問開源模型配置要求

測量了使用BF16、Int8和Int4中的模型生成序列長度(Sequence Length)2048的平均推理速度和GPU記憶體使用情況。

  • 訓練所需要記憶體列表

  • 推理所需要記憶體列表

  • Qwen在各個評測任務表現-整體效果不錯

  • 技術創新:通義千問720億引數模型(Qwen-72B)代表了當時業界開源模型的頂級技術水平,大規模引數量意味著模型具有更強的學習能力和泛化效能,能夠處理複雜多樣的自然語言任務。

  • 效能表現:在多個權威基準評測中取得開源模型最優成績,證明了其卓越的技術實力和廣泛的適用性,不僅超越了部分知名開源模型如Llama 2-70B,而且在與商用閉源模型的競爭中也展現出了競爭力。

  • 全模態能力:開源的模型包括文字和音訊等多種模態,實現了“全尺寸全模態”的開源,表明通義千問支援跨模態的應用場景,增強了其在多領域應用的潛力。

  • 行業影響:阿里雲推動了AI技術普惠化程序,使得學術界、企業和個人開發者可以更便捷地利用這些先進的模型進行研究和開發,降低了准入門檻,促進了AI生態的繁榮與發展。

4. 對AI看法

  1. 提高效率:
    • 在多個業務領域中,AI大模型透過自動化和最佳化流程,顯著提高了工作效率;
    • 在資料分析領域,AI大模型可以自動處理和分析海量資料,提供有價值的洞察。
  2. 提高決策準確性
    • 基於大量資料的訓練,AI大模型可以提供更為準確的分析和預測,可以做出更明智的決策。
  3. 推動創新
    • AI大模型的應用為企業帶來了創新的可能性,推動了產品和服務的升級。

更多優質內容請關注公號:汀丶人工智慧;會提供一些相關的資源和優質文章,免費獲取閱讀。

原文連結:大模型落地實戰指南:從選擇到訓練,深度解析顯示卡選型、模型訓練技、模型選擇巧及AI未來展望---打造AI應用新篇章

參考連結:

  1. https://github.com/QwenLM/Qwen?tab=readme-ov-file#profiling-of-memory-and-speed
  2. https://github.com/Lightning-AI/lit-llama/blob/main/howto/train_redpajama.md

相關文章