LLM中的一些概念

漫舞八月（Mount256）發表於2024-12-02

原文網址 : https://www.cnblogs.com/Mount256/p/18582620

令牌（token）
- Token 定義
- Token 相關概念
- 總結
提示(prompt)
- 1. Zero-shot Prompting
- 2. One-shot Prompting
- 3. Few-shot Prompting
- 4. Chain-of-Thought Prompting
- 5. Instruction-based Prompting
- 6. Contextual Prompting
- 7. Template-based Prompting
- 總結
字首（prefix）
- 1. 上下文引導
- 2. 控制生成內容
- 3. 任務特定生成
- 4. 提高生成質量
- 5. 示例
  - 示例 1：日常對話
  - 示例 2：技術文件
  - 示例 3：故事創作
- 總結
字首與提示的區別
- 1. 定義
- 2. 功能和用途
- 3. 例子
  - 字首示例
  - 提示示例
- 4. 靈活性
- 5. 應用場景
- 總結

令牌（token）

以下是對 token 的定義及其相關概念的詳細說明：

Token 定義

Token 是自然語言處理（NLP）中的基本單位，通常指將文字分解為的最小單元。一個 token 可以是一個詞、字元、子詞或符號，具體取決於上下文和所用的分詞技術。Token 在 NLP 模型中用於表示輸入資料，使得模型能夠處理和生成語言。

Token 相關概念

分詞（Tokenization）：
- 將一段文字分割成 tokens 的過程。分詞可以是基於詞的、字元的或子詞的。
- 示例：句子“我愛自然語言處理”可以分解為 ["我", "愛", "自然", "語言", "處理"]。
型別（Token Types）：
- 指 token 的類別，例如詞、標點符號、特殊符號等。
特殊令牌（Special Tokens）：
- 在特定任務中使用的 tokens，例如：
  - [CLS]：用於分類任務的開頭。
  - [SEP]：分隔兩個句子的標記。
掩碼令牌（Mask Token）：
- 在掩碼語言模型中使用的標記，表示需要預測的詞。
- 示例：在輸入“我喜歡[MASK]。”中，模型需要預測被掩蓋的詞。
填充令牌（Padding Token）：
- 用於使輸入序列達到相同長度的 tokens，通常在批處理時使用。
- 示例：將較短的序列用 <pad> 填充。
未知令牌（Unknown Token, UNK）：
- 在模型未見過的詞出現時使用的令牌，表示無法識別的詞。

總結

Tokens 是自然語言處理中的重要概念，它們構成了模型理解和生成語言的基礎。透過合理的分詞和使用不同型別的 tokens，模型能夠更有效地處理文字資料。

提示(prompt)

當然，除了 one-token prompt，還有多種其他的提示方法可以引導自然語言處理模型生成文字。以下是一些常見的提示方法：

1. Zero-shot Prompting

這種方法不提供任何示例，直接提出問題或請求。模型根據已有知識生成響應。

示例：
- 輸入：解釋一下量子力學。
- 輸出：模型提供對量子力學的簡要解釋。

2. One-shot Prompting

示例：
輸入：快樂
輸出：生成關於幸福、快樂的定義或相關的名言。
輸入：跑
輸出：生成關於跑步的好處、技巧或相關的故事。

3. Few-shot Prompting

在這種方法中，提供幾個示例來引導模型理解所需的輸出型別。示例通常包括輸入和期望輸出的對。

示例：

輸入：

例子1: 貓是可愛的動物。
例子2: 玫瑰是美麗的花。
例子3:

輸出：模型可能生成“狗是忠誠的夥伴。”

4. Chain-of-Thought Prompting

這種方法透過引導模型逐步思考，提供更詳細的推理過程，從而生成更復雜的回答。

示例：
- 輸入：如果今天是星期一，那麼三天後是星期幾？
- 輸出：模型可以逐步推理，得出“星期四”。

5. Instruction-based Prompting

直接給出明確的指令，告知模型要執行的具體任務。

示例：
- 輸入：寫一首關於春天的詩。
- 輸出：模型生成一首詩，描述春天的景象。

6. Contextual Prompting

提供上下文資訊，幫助模型理解生成內容的背景。

示例：
- 輸入：在一個陽光明媚的日子，一隻小狗在公園裡玩耍。描述這個場景。
- 輸出：模型描繪出小狗在公園的活動和周圍環境。

7. Template-based Prompting

使用預定義模板，將特定資訊填入模板中，以生成結構化輸出。

示例：
- 輸入：填入以下模板：天氣今天是{天氣情況}，溫度{溫度}度。
- 輸出：模型填入具體資訊，如“天氣今天是晴天，溫度25度。”

總結

這些方法各有優缺點，適用於不同的任務和場景。選擇合適的提示方法可以顯著提高模型的生成質量和相關性。

字首（prefix）

在語言模型中，prefix（字首）是指在生成文字時，模型所依據的上下文或輸入序列的初始部分。使用字首有助於引導和控制模型生成的內容，以下是其主要作用和相關概念的詳細解釋：

1. 上下文引導

提供上下文：
- 字首為模型提供生成文字的上下文資訊，使得模型能夠理解接下來應該生成什麼內容。例如，輸入字首“今天天氣不錯，我想去”可以引導模型生成與天氣相關的活動建議。

2. 控制生成內容

主題一致性：
- 透過設定特定的字首，可以影響生成文字的主題和風格。例如，字首“科學是”可能會引導模型生成與科學相關的討論，而字首“我喜歡的音樂是”則會引導模型生成關於音樂的內容。
風格和語氣：
- 字首的選擇可以影響生成文字的語氣和風格。例如，使用“親愛的朋友”作為字首，可能會導致生成的文字更具親切感。

3. 任務特定生成

適應不同任務：
- 在許多自然語言處理任務中，字首可以用作任務的指示。例如，在問答任務中，字首可以是“問題：”，而在摘要任務中，字首可以是“摘要：”，幫助模型理解所需的輸出格式。

4. 提高生成質量

減少無關內容：
- 使用合適的字首可以減少模型生成無關或不合邏輯內容的可能性。透過明確的上下文，模型更容易生成相關和連貫的文字。

5. 示例

示例 1：日常對話

字首：“你今天過得怎麼樣？”
生成文字：模型可能生成關於日常活動、情感表達或具體事件的響應，如“我今天去購物了，感覺很不錯。”

示例 2：技術文件

字首：“在機器學習中，過擬合是指”
生成文字：模型可能生成關於過擬合的定義、影響及其解決方案的詳細解釋。

示例 3：故事創作

字首：“從前有一個小村莊，村裡住著一位”
生成文字：模型可能繼續描述村莊的環境、角色的性格及其冒險故事。

總結

字首在語言模型中起著至關重要的作用，透過提供上下文和引導生成內容，能夠顯著提高生成文字的相關性、連貫性和質量。合理使用字首，可以有效地控制模型的輸出，滿足特定的應用需求。

字首與提示的區別

字首（prefix） 和 提示（prompt） 在語言模型中有相似的作用，但它們在使用和應用上存在一些細微的區別。以下是對兩者的詳細比較：

1. 定義

字首（Prefix）：
- 通常指在生成文字時，模型所依據的初始部分或上下文。它可以是一個簡單的短語或句子，用於引導模型生成特定內容。
提示（Prompt）：
- 是使用者輸入給模型的文字，通常更為系統化和結構化。提示可以是問題、指令或描述，旨在明確告訴模型需要生成什麼樣的內容。

2. 功能和用途

字首：
- 上下文提供：用於設定生成文字的背景和情境。例如，給定一個故事的開頭或者對話的開場白。
- 主題引導：幫助模型在特定主題下生成內容。
提示：
- 明確指令：通常包含更具體的要求，例如“請解釋什麼是過擬合。”或“寫一首關於春天的詩。”。
- 任務特定：提示往往用於特定任務，如問答、摘要、翻譯等，明確告訴模型要執行什麼操作。

3. 例子

字首示例

字首：“在一個陽光明媚的早晨，”
生成文字：模型可能生成描述這個早晨的場景或故事的後續。

提示示例

提示：“請描述一個陽光明媚的早晨。”
生成文字：模型直接回應提示，描述這個早晨的細節。

4. 靈活性

字首：
- 字首可以是較長的文字片段，模型可以在此基礎上自由擴充套件生成內容。
提示：
- 提示通常是使用者給出的具體請求，可能更具引導性和限制性，模型需要根據提示提供直接的響應。

5. 應用場景

字首：
- 常用於生成場景、故事或對話的上下文，幫助模型建立背景。
提示：
- 在需要明確指令或任務的情況下使用，例如在特定的 NLP 任務中，如摘要、翻譯或問答。

總結

雖然字首和提示在功能上有所重疊，都是用於引導模型生成文字，但字首更側重於提供上下文，而提示則更側重於明確指令和任務要求。在實際應用中，根據具體需求選擇使用字首或提示，可以更有效地控制模型的輸出。

SQL Server 中的一些概念
2018-07-21
SQLServer
LLM中詞向量的表示和詞嵌入的一些疑問
2024-10-13
11、Swoole 中涉及的一些基本概念
2020-05-31
讓 LLM 來評判 | 基礎概念
2025-01-11
設計的一些概念
2019-02-16
Flutter的一些概念(二)
2024-08-31
Flutter
flutter 的一些概念三
2024-09-06
Flutter
oracle一些易混淆的概念
2019-04-28
Oracle
物件導向的一些概念
2024-07-26
物件
一些概念之二
2018-11-04
通俗理解一些概念
2018-07-26
spark 一些重要概念
2020-10-18
Spark
CSS2中盒模型與佈局的一些概念關係
2019-01-06
CSS模型
小白對python的一些概念的總結
2024-11-03
Python
C語言容易混淆的一些概念
2020-11-10
C語言
一些亂七八糟的概念以及定義
2020-11-10
資料庫簡單的一些原理概念
2022-03-23
資料庫
關於分散式計算的一些概念
2021-09-09
分散式
資料結構的一些基本概念
2021-01-22
資料結構
一些概念2(私人筆記)
2019-03-18
筆記
shared_ptr的概念和一些特性調查
2024-05-17
關於量子技術的一些概念糾正
2018-04-03
初學Java時沒有理解的一些概念
2022-04-17
Java
Laravel中的核心概念
2019-02-16
Laravel
Java中的字串池概念
2021-11-11
Java字串
工業相機曝光和增益的一些基本概念
2018-04-26
Java中的物件導向（OOPs）概念 - 四個主要概念
2018-10-22
Java物件OOP
Laravel 中的 Event 和事件的概念
2018-12-06
Laravel事件
CSS 中重要的層疊概念
2019-03-02
CSS
vuex 中的核心概念及原理
2019-04-09
Vue
MySQL MVCC中的基本概念
2024-04-06
MySqlMVC
mysql中SQL的概念介紹
2021-09-11
MySql
測試人員應該瞭解的一些基本概念
2018-08-08
朱峰談概念設計（八）：電影中的概念設計
2019-04-22
【白皮書】JS中的基本概念
2019-03-26
JS
資料中臺中的核心概念解析
2024-01-29
在rman恢復中incarnation的概念
2019-07-18
CSS中那些必須掌握的概念
2020-07-01
CSS