什麼是大語言模型(LLM)?

banq發表於2024-03-07

在本文中,我們深入研究了大型語言模型LLM的構成。我們將深入探討它複雜的設計、令人驚歎的訓練過程、跨領域的眾多用途、它面臨的困難以及它迫使我們面對的道德困境。

描述大語言模型:
大模型LLM是複雜的人工智慧 (AI) 模型,可以理解和生成人類語言。這些深度學習模型的特點是規模巨大,通常由數十億個引數組成。這些引數是模型的可教授元件,使其能夠識別自然語言中的複雜模式、語法約定和上下文互動。

大規模基於文字的模型 (LLM) 使用來自各種來源(包括書籍、論文、網站等)的大量文字資料進行訓練。由於廣泛接觸各種語言用法,這些模型可以理解人類交流中固有的語法、語義,甚至某種程度的推理。

大模型通常要經過兩輪基本培訓:

  • 預訓練階段:模型在預訓練階段接觸廣泛且多樣化的文字資料集。它學習根據前面的單詞來預測短語中的下一個單詞。在此過程中,該模型可以瞭解語言的語言結構和統計趨勢。
  • 微調:預訓練之後是對某些活動或領域的微調。這需要在與特定應用相關的更集中的資料集上訓練模型,例如翻譯、摘要或問答。透過這樣做,可以對模型的輸出進行微調,使其最適合特定的工作。

LLM的架構結構
在複雜的人工智慧領域,沒有什麼發展比大型語言模型 (LLM) 更能吸引全世界的興趣。這些巨大的人工智慧創作具有驚人的能力,不僅能夠理解人類語言的微妙之處,還能創作出非常像人類的散文。

這些模型的架構是一個經過深思熟慮的藍圖,使它們能夠以驚人的能力吸收、分析和操縱語言,是構建這種語言魔力的基礎。在本次調查中,我們開始尋求理解支援大型語言模型的架構,特別關注轉型 Transformer 架構。

影響大語言模型構建的重要因素
要修改大型語言模型 (LLM) 的行為、效能和功能,必須仔細選擇和配置各種元件。以下是影響大模型架構的主要元素:

模型大小和引數數量:適應模型的複雜性建立大型語言模型 (LLM) 時要考慮的最重要因素之一是模型的大小及其包含的引數數量。

  • 輸入表示:想象一下用單詞解釋來指導模型作為輸入表示。它透過給予對其有意義的單詞表示來學習。該模型被教導使用這種稱為嵌入的表示來區分單詞中含義的許多細微差別。這類似於向藝術家展示調色盤;每種色調都代表一種獨特的感覺或概念。
  • 自注意力系統:它確定哪些單詞對於理解句子的含義更為重要。這就像你強調故事中的特定單詞以確保每個人都明白要點一樣。
  • 培訓目標:在培訓期間,大模型必須學習各種主題,就像學生必須在學校學習各種課程一樣。重點是什麼是由培訓目的決定的。例如,可以教它猜測短語中接下來出現的單詞。就像教偵探預測謎題中的下一個拼圖一樣,這可以幫助他們更好地理解情節。
  • 焦點機制:由於注意力過程(例如自注意力)的設計和使用,模型可以權衡各種單詞的重要性並捕獲長程相互依賴關係。
  • 資料處理和標記化:文字資料的標記化和其他特定處理,以及適當的準備,可確保模型的輸入資料結構正確。

模型經常在廣泛的語料庫上進行預訓練,然後利用特定任務的資料和目標對特定任務進行微調。

遷移學習使用在預培訓期間獲得的知識來進行更遠的工作。

  • 遷移學習和微調:​​將基於預訓練的學習遷移到針對特定活動的微調至關重要。在預訓練期間,模型會獲取通用語言特徵,並在微調期間將其調整為特定任務。
  • 正則化技術:透過對模型的學習過程施加限制,正則化技術可以最大限度地減少過度擬合。例如,dropout 在訓練過程中隨機停用某些神經元,從而增強恢復能力。
  • 硬體和培訓基礎設施:強大的硬體可加速培訓。透過在多個裝置或節點上進行分散式訓練,可以實現大模型的有效訓練。
  • 道德考慮:保證模型生成的資訊遵守道德原則至關重要。採取行動制止仇恨言論、虛假資訊和其他破壞性輸出至關重要。
  • 評估和減少偏見:嚴格的評估技術衡量書面文字的質量水平。偏差減少方法致力於減少訓練資料中可能存在的偏差以及模型輸出中可能出現的偏差。
  • 模型可解釋性:理解模型如何決策非常重要。使用特徵顯著性分析和注意力視覺化技術可以更好地理解其決策過程。
  • 資源消耗和環境影響:訓練大型模型需要大量的能源,這引發了問題。研究人員正在研究節能訓練技術對環境的影響。
  • 社群和協作研究:研究人員的合作以及基準、統計資料和發現的共享加快了該領域的進步,同時鼓勵負責任的增長。

什麼是提示工程?
提示工程仔細規劃和增強了 GPT-4 等大型語言模型 (LLM) 的文字提示,以實現某些所需的結果。即使這些模型已經包含了大量的資訊,使用者也可以透過精心準備的提示主動修改他們的回覆。大模型是一種聊天機器人,可以生成單詞但不掌握上下文。

提示是控制演算法的輸入以指導生成的輸出成功匹配使用者的目標。儘管該領域仍處於起步階段,但企業仍使用工具和指南來增強與人工智慧應用程式的互動。某些平臺上甚至還提供有用提示的彙編。

提示工程正在成為 IT 和業務領域專業人員的一項關鍵技能。當組織尋求利用大模型來定製應用程式時,提示工程師在開發符合特定業務需求的定製模型方面發揮著關鍵作用。因此,這種做法將塑造企業如何與各行業的大模型互動和利用大模型。

Transformer設計
一種稱為基於變壓器的大語言模型 (LLM) 的人工智慧模型旨在理解、生成和修改人類語言。它擴充套件了 Transformer 的設計,這是一種突破性的神經網路拓撲,首次由 Vaswani 等人在 2017 年出版物《Attention Is All You Need》中提出。從那時起,複雜的自然語言處理(NLP)模型通常從 Transformer 開始。

  • 輸入嵌入:輸入文字被分為更小的單元,例如單詞或詞段。每個元件都被轉換為體現其重要性的唯一數字。此階段幫助模型理解單詞或元件的含義以及它們如何互動。
  • 位置編碼:我們用一些附加資料來補充這些數字表示。這些附加資訊告知模型有關句子中每個單詞或單詞部分的位置。Transformer 並不自然地掌握詞序。因此,這有助於模型理解詞序。
  • 編碼器:充當模型的大腦。它透過檢視與單詞對應的數字來確定文字的上下文和含義。編碼器產生類似於秘密筆記的隱藏狀態並儲存文字相關資料。為了完全理解文字,變壓器有許多層的編碼器。
  • 自注意力機制:將其視為模型的注意力方法。它會考慮每個單詞並確定哪個對於理解某個單詞更重要。這有助於模型在文字中廣泛分佈的單詞之間建立聯絡的能力。
  • 解碼器層:某些模型還具有有助於逐字文字生成的解碼器。根據它之前生成的單詞,它利用所學知識對下一個單詞進行預測。
  • 多頭注意力:該模型從多個角度檢查單詞,就好像它使用多雙眼睛而不是一隻眼睛一樣。這使其能夠在各種情況下理解單詞。
  • 層歸一化:此功能限制模型的學習能力。它有助於模型在各種文字型別上正確執行並保持專注。
  • 輸出層:這是模型做出最終預測的地方。根據模型正在執行的操作,它會給出下一個單詞的機率、回答問題或執行其他操作。

Transformer 中的自注意力機制具有三個主要優點:

  • 降低每層的計算複雜度:當資料點的數量 (n) 小於資料的維度 (d) 時,可以觀察到這一優勢。在這種情況下,自注意力機制降低了每層的計算複雜度。
  • 增強的可平行計算:自注意力機制促進了更多的可平行計算,這是透過所需的最少順序運算元量來衡量的。這可以在訓練期間實現更快的處理和最佳化。
  • 減少遠端依賴的路徑長度:透過利用自注意力,變壓器可以有效地減少網路內遠端依賴之間的路徑長度。路徑長度的減少有助於降低災難性遺忘的風險,即網路在訓練期間可能會忘記重要資訊。

從本質上講,Transformer 中的自注意力機制透過有效管理計算、實現並行處理以及維護資料中遠端元素之間的連線來提供這些優勢。

“自迴歸”和“seq2seq”這兩個詞是什麼意思?
答案:自迴歸描述了推斷過去的時間步驟來預測即將到來的時間步驟。過去,這種建模方法已被應用於各行各業,包括財務預測。它在自然語言處理 (NLP) 中用於預測短語中的下一個標記或單詞。

Seq2seq 是一種將輸入序列轉換為輸出序列的技術。由於資料通常由不同的片段組成,例如短語中的字母或標記,因此使用“序列”一詞。詞嵌入技術將標記轉換為數值向量來處理這些元素。

事實上,這種方法可以處理各種輸入輸出情況,使其具有極強的適應性,是解決各種現實問題的理想選擇。例如,它可以控制語音位元組、圖片畫素行及其相關的輸出文字。使用序列來表示整個時間的資料(例如在語音中)和其他資料佈局具有有趣的哲學後果。

實際上,這種適應性可以實現分類任務,例如從五個選項中選擇一條推文的情緒並進行預測。該模型可以透過將查詢和可能的響應構建為字元序列(標記)來處理各種任務,這類似於“通用人工智慧”(AGI)的想法。這意味著單個模型可以成功地完成多種工作。

AGI 和靈活性
Transformer 的受歡迎程度不僅僅是其效能提高的結果,這是透過使用更大的模型(這種發展經常顯示出與引數數量呈線性關係)實現的。儘管更高的精度無疑對它們的吸引力很重要,但這隻能部分解釋為什麼變壓器被廣泛使用。

由於 Transformer 在處理自迴歸和 seq2seq 作業方面具有適應性,因此具有多種用途且與多個領域相關。因此,它們的影響不僅僅是提高基準精度。它為通用人工智慧 (AGI) 鋪平了道路,更接近類人的多功能性和適應性,其中單個模型可以處理各種活動。

結論
總之,由 GPT-3 等技術支援的大型語言模型 (LLM) 的出現極大地改變了語言模型的格局。由於它們具有理解上下文、給出深思熟慮的響應、甚至模仿人類語言的微妙之處的非凡能力,這些模型幫助開創了自然語言理解和生成的新時代。在本文中,我們研究了大模型的功能、用途和基本工作原理,揭示了他們從語言翻譯和摘要到創意寫作和程式碼生成的各種能力。

相關文章