Prompt進階2:LangGPT(構建高效能Prompt策略和技巧)--最佳實踐指南

汀、人工智能發表於2024-03-13

原文網址 : https://www.cnblogs.com/ting1/p/18070919

Prompt進階2:LangGPT(構建高效能Prompt策略和技巧)--最佳實踐指南

0.前言

左圖右圖 prompt 基本是一樣的，差別只在提示工程這個詞是否用中英文表達。我們看到，一詞之差，回答質量天壤之別。為了獲得理想的模型結果，我們需要調整設計提示詞，這也就是所謂的提示工程。

一個廣泛的理解誤區就是將 prompt 簡單理解為自己精心設計的那一小段提示詞，而忽略了prompt 的其他來源。

我們用輸入法做個類比，第一張圖片中的 “春眠” 是我們的輸入，“不覺曉” 是模型輸出，所以 “春眠” 是 Prompt。到了第二張圖片， “春眠不覺曉” 是模型輸入（“不覺曉”是模型前一輪的輸出），“處處聞啼鳥” 是模型輸出，所以 “春眠不覺曉” 是 Prompt。prompt 的來源可以是我們的預設 prompt，也可以是使用者的輸入，甚至模型自己之前的輸出也是 prompt。所以，要用好大模型能力，我們應意識到："所有會被模型用於預測輸出結果的內容，都是 Prompt"。

相比一般提示詞，將提示詞這一作文題變為填空題，編寫門檻降低的同時，更加清晰和強大。

1.1 六大提高效能的策略

1.1 策略一:清晰地表達指令

GPT 無法讀取您的思維。如果輸出過長,要求它提供簡短的回覆。如果輸出過於簡單,要求它提供專業級的寫作。如果您不喜歡輸出的格式,請示範您希望看到的格式。GPT 模型需要猜測的東西越少,您得到想要的結果的可能性就越大。

技巧:

在查詢中包含更多細節以獲取更相關的回答
要求模型採用特定的角色
使用分隔符清楚地指示輸入的不同部分
指定完成任務所需的步驟
提供示例
指定期望的輸出長度

1.2 策略二:提供參考文字

GPT 模型可以自信地編造虛假的答案,尤其是在被問到深奧的話題或被要求提供引用和 URL 時。就像考試前準備的筆記本可以幫助學生取得更好的成績一樣,為 GPT 模型提供參考文字也可以減少它編造答案的可能性。

技巧:

指示模型使用提供的參考文字進行回答
指示模型使用參考文字中的引文進行回答

1.3 策略三:將複雜任務分解為更簡單的子任務

正如在軟體工程中將複雜系統分解為一組模組元件是一個好的實踐一樣,提交給 GPT 模型的任務也應該進行拆分。複雜的任務錯誤率往往比簡單任務高。此外,複雜任務通常可以重新定義為一系列更簡單任務的工作流,其中早期任務的輸出被用於構造後期任務的輸入。

技巧:

使用意圖分類識別與使用者查詢最相關的指令
對需要非常長對話的對話應用,彙總或過濾之前的對話
分段摘要長文件,遞迴構建完整摘要

1.4 策略四:給予 GPT“思考”的時間

如果要求您立刻計算 17 乘以 28,您可能不會立即知道答案,但仍能透過思考得出正確解。類似地,GPT 模型如果被要求立即回答也更容易出現推理錯誤,而逐步思考問題可以更可靠地得出正確答案。

技巧:

指示模型在匆忙得出結論之前自己推匯出解決方案
使用內心獨白或一系列查詢來隱藏模型的推理過程
詢問模型是否在之前的輪次中遺漏了任何資訊

1.5 策略五:使用外部工具

補充 GPT 模型的輸入短板,為其提供其他工具的輸出。例如,文字檢索系統可以告知 GPT 模型相關文件的資訊。如果一項任務可以由工具而不是 GPT 模型更可靠、更高效地完成,則將其外包可以取得兩全其美的效果。

技巧:

使用基於嵌入的搜尋實現高效的知識檢索
使用程式碼執行進行更準確的計算或呼叫外部 API
允許模型訪問特定函式

1.6 策略六:系統地測試更改

有時候很難分辨出某項更改(如新指令或設計)是否提升了系統效能。檢視幾個例子可能會提示哪種方法更好,但樣本量太小時,難以區分真正的改進與隨機幸運。也許某項更改對某些輸入有益,但對其他輸入有害。

評估程式(或“測評”)對最佳化系統設計很有用。好的測評應該具有以下特點:

代表真實使用情況(或至少包含多樣性)
包含大量測試用例以增強統計功效(參見下表)
易於自動化或重複

需檢測的差異	需樣本量(95%置信度)
30%	~10
10%	~100
3%	~1000
1%	~10000

模型輸出的評估可以由計算機、人類或兩者的組合來完成。計算機可以用客觀標準(如只有單一正確答案的問題)自動進行測評,也可以用其他模型查詢對一些主觀或模糊標準進行測評。OpenAI Evals是一個開源軟體框架,提供了建立自動化測評的工具。

對於輸出範圍廣泛且同等高質量的問題(如需要長答案的問題),基於模型的測評可發揮作用。模型測評與需要人工評估的問題界限模糊,隨著模型變得越來越強大而不斷擴充套件。我們鼓勵您進行試驗,瞭解基於模型的測評對您的用例能發揮多大作用。

技巧:

根據參考標準答案評估模型輸出

2.技巧深入

上述每種策略都可以用具體的技巧來實現。這些技巧旨在提供思路,絕非面面俱到,您應隨意嘗試這裡未涉及的創造性思路。

2.1 策略一:清晰地表達指令

技巧:在查詢中包含更多細節以獲取更相關的回答

為了獲得高度相關的回覆,查詢需要提供任何重要的細節或上下文資訊,否則就要由模型猜測您的意圖。

劣質	優質
Excel 中如何相加數字?	在 Excel 中如何對一行金額自動相加?我想對整個工作表的行進行求和,總和顯示在右邊一列"總計"中。
誰是總統?	2021年墨西哥總統是誰,選舉頻率是多久一次?
編寫程式碼計算斐波那契數列。	用 TypeScript 編寫一個函式來有效地計算斐波那契數列。對程式碼新增詳細註釋以解釋每個部分的作用及編寫方式。
摘要會議記錄。	用一段話摘要會議記錄。然後用 markdown 列表羅列發言人及每個人的要點。最後,列出會議記錄中發言者提出的後續步驟或行動事項(若有)。

技巧:要求模型採用特定的角色

系統訊息可用於指定模型在回覆時採用的角色。

技巧:使用分隔符清楚地指示輸入的不同部分

三引號、XML標籤、標題等分隔符可以幫助標記需不同對待的文字片段。

對於簡單的任務,使用分隔符可能不會影響輸出質量。然而,任務越複雜,明確任務細節就越重要。不要讓 GPT 模型費勁理解您到底在要求什麼。

技巧:指定完成任務所需的步驟

有些任務最好用一系列步驟來表達。明確寫出步驟可以讓模型更容易遵循。

技巧:提供示例

在所有示例上演示任務的各種變化通常比僅給出說明更高效,但在某些情況下提供示例可能更簡單。例如,如果您希望模型模仿回覆使用者查詢的特定風格,而這種風格難以明確表達。這被稱為 “few-shot” 提示。

技巧:指定期望的輸出長度

您可以要求模型生成特定目標長度的輸出。目標輸出長度可以以單詞數、句子數、段落數、專案符號數等來指定。但是,指示模型生成特定數量的單詞不能高精度實現。模型可以更可靠地生成特定段落數或專案符號數的輸出。

2.2 策略二:提供參考文字

技巧:指示模型使用提供的參考文字進行回答

如果我們能為模型提供與當前查詢相關的可信資訊,那麼我們可以指示模型使用提供的資訊來組成其回答。

鑑於 GPT 模型具有有限的上下文視窗,為了應用此技巧,我們需要某種方法根據問題動態查詢相關資訊並新增到模型輸入中。嵌入可用於實現高效的知識檢索。請參閱技巧“使用基於嵌入的搜尋實現高效知識檢索”以獲取更多詳細資訊。

技巧:指示模型使用參考文字中的引文進行回答

如果輸入補充了相關知識,則可以輕鬆要求模型在答案中新增引文,引用提供文件的相關段落。輸出中的引文然後可以透過與提供文件的字串匹配來程式化驗證。

2.3 策略三:將複雜任務分解為更簡單的子任務

技巧:使用意圖分類識別與使用者查詢最相關的指令

對於需要大量獨立指令集來處理不同情況的任務,首先對查詢進行分類以確定所需指令會很有益。這可以透過定義固定類別並針對每個類別硬編碼相關指令來實現。該過程也可以遞回應用以將任務分解成一系列階段。這種方法的優點是每個查詢只包含執行任務下一階段所需的指令,這可以與使用單個查詢執行整個任務相比降低錯誤率。這也可以降低成本,因為更大的提示需要更高的執行成本(檢視價格資訊)。

例如,對於客戶服務應用,查詢可以劃分為以下類別:

根據客戶查詢的分類,可以為 GPT 模型提供更具體的指令來處理後續步驟。例如,假設客戶需要“故障排除”的幫助。

注意,模型被指示在對話狀態發生變化時輸出特殊字串。這使我們可以將系統轉化為狀態機,其中狀態確定注入哪些指令。透過跟蹤狀態、該狀態下相關的指令,以及從該狀態允許的狀態轉移,我們可以為使用者體驗設定更難以用不太結構化的方法實現的約束。

技巧:對需要非常長對話的對話應用,彙總或過濾之前的對話

由於 GPT 模型具有固定的上下文長度,因此將整個對話包含在上下文視窗內的使用者與助手之間的對話無法無限期地繼續。

這一問題有多種解決方法,一種是在輸入大小達到預定閾值長度時,使用一個查詢來總結對話的一部分,並將之前對話的摘要包含在系統訊息中。或者,可以在整個對話的過程中非同步地在後臺總結之前的對話。

另一種解決方案是動態選擇與當前查詢最相關的之前對話部分。請參閱技巧“使用基於嵌入的搜尋實現高效知識檢索”。

技巧:分段摘要長文件,遞迴構建完整摘要

由於 GPT 模型具有固定的上下文長度,它們無法在單個查詢中概括比上下文長度減去生成摘要長度還要長的文字。

要摘要像書籍這樣的非常長文件,我們可以使用一系列查詢逐部分摘要文件。部分摘要可以連線在一起生成摘要的摘要。該過程可以遞迴進行,直到整個文件被摘要。如果為了理解後面部分需要使用前面部分的資訊,則可以在摘要某點內容時,將該點之前文字的執行摘要也包括在內,這一技巧也很有用。OpenAI 之前的研究已經研究了使用 GPT-3 變體遞迴摘要書籍的效果。

2.4 策略四:給予 GPT“思考”的時間

技巧:指示模型在匆忙得出結論之前自己推匯出解決方案

有時候明確地讓模型先自行推理出答案再回複使用者,可以獲得更好的效果。

例如,我們想讓模型評判一個學生對數學問題的解答。最直接的方法是簡單地詢問模型該解答是否正確。

但如果我們首先讓模型自己解出題目並生成答案,再讓其比較學生的答案,就更容易發現問題:

SYSTEM: 首先自己解出這道題並生成答案。然後再比較你的答案和學生的答案,判斷學生的答案是否正確。在比較之前,不要依賴學生的答案來決定其是否正確。

USER: <插入題目>

<插入學生答案>

ASSISTANT: <模型先生成自己的答案> 

<模型比較兩個答案並作出評價>

技巧:使用內心獨白或一系列查詢來隱藏模型的推理過程

有時候我們不想讓使用者看到模型的全部推理過程,只需要展示最後的回覆。

這時可以使用"內心獨白"把需要隱藏的部分放入特定格式中,在展示給使用者前把這些部分刪除。

或者,可以進行一系列查詢,其中只有最後一個查詢的輸出會展示給使用者。

#隱藏查詢1: 僅提供問題描述,讓模型解出答案

#隱藏查詢2: 提供問題描述、模型解答和學生解答,讓模型判斷學生解答的正確性

#可見查詢: 假設模型是一個有幫助的導師,如果學生錯誤,給出提示;如果正確,給予鼓勵

技巧:在前幾輪後詢問模型是否遺漏了相關資訊

當我們要求模型列舉某文字中的所有相關摘錄時,模型常會過早停止而未羅列全部。

這時可以在前幾輪查詢後,再詢問模型是否還遺漏了相關內容,以獲取更完整的結果。

2.5 策略:使用外部工具

技巧:使用基於嵌入的搜尋實現高效的知識檢索

我們可以在模型的輸入中加入相關的外部資訊,幫助其生成更準確的回覆。

例如,如果使用者詢問一個具體的電影,將該電影的高質量資訊(演員、導演等)也加入輸入中會很有用。

透過使用文字嵌入可以實現高效的知識檢索,從而動態地在執行時將相關資訊加入模型輸入中。

具體實現可以參考 OpenAI Cookbook。

技巧:使用程式碼執行進行更精確的計算或呼叫外部 API

GPT 模型自己進行算術運算或長時間計算時誤差很大。這時可以讓其編寫程式碼進行運算並執行。

程式碼執行也可以用來呼叫外部 API。如果事先教會模型如何使用某 API,它可以編寫呼叫該 API 的程式碼。

需要注意,執行模型生成的程式碼有安全風險,需要採取防護措施。

技巧:系統地測試各種改變

有時候很難判斷某項改變是否提升了系統效能。僅觀察幾個例子來判斷是不可靠的。

適當的評估流程對最佳化系統設計非常有用。好的評估應該具有代表性、包含足夠多的測試用例。

評估可以由計算機、人工或兩者混合來進行。計算機可以自動進行客觀的評估。OpenAI Evals 提供了用於構建自動評估的開源工具。

當存在多種可被認為同等優質的輸出時,使用模型進行評估也可行。我們鼓勵針對不同使用案例進行試驗,衡量模型評估的可行性。

技巧:參照標準答案來評估模型輸出

如果問題的正確答案需要包含某些已知的事實,我們可以用模型查詢來統計答案中包含了多少需要的事實。

例如:

SYSTEM: 檢查提交的答案是否直接包含下列資訊:

- Neil Armstrong 是第一個登月的人
- Neil Armstrong 首次登月的日期是 1969年7月21日

對於每個要點:

1 - 重述要點
2 - 提供與要點最相關的答案摘錄
3 - 分析僅看摘錄的人是否可以推斷出該要點,解釋你的推理過程
4 - 如果答案是肯定的,寫 "yes",否則寫 "no"

最後,統計"yes"的個數,用以下格式提供:

{"count": <yes的個數>}

如果答案滿足所有要點,count 將為要點的總數。如果僅滿足部分要點,count 將小於要點總數。

這樣可以構建不同的模型評估變體來統計答案與標準答案的重合情況,以及是否存在矛盾。

更多優質內容請關注公號：汀丶人工智慧；會提供一些相關的資源和優質文章，免費獲取閱讀。

參考連結：

https://github.com/EmbraceAGI/LangGPT/tree/main

https://github.com/EmbraceAGI/LangGPT/blob/main/Docs/GPTBestPractise.md

Prompt進階系列4:LangGPT(構建高效能Prompt實踐指南)--結構化Prompt
2024-03-22
GPT
Prompt進階3:LangGPT(構建高效能質量Prompt策略和技巧2)--穩定高質量文案生成器
2024-03-13
GPT
Prompt工程師指南[應用篇]：Prompt應用、ChatGPT|Midjouney Prompt Engineering
2023-05-15
工程師ChatGPT
Prompt進階系列1:LangGPT(從程式語言反思LLM的結構化可複用提示設計框架)
2024-03-08
GPT框架
解密Prompt系列36. Prompt結構化編寫和最最佳化演算法UNIPROMPT
2024-08-19
解密演算法
構建RAG應用-day02: prompt技巧總結 llamaIndex入門
2024-04-21
AIIndex
Docker多階段構建最佳實踐
2018-08-29
Docker
教你構建一個優秀的SD Prompt
2024-04-10
NL2SQL實踐系列(1)：深入解析Prompt工程在text2sql中的應用技巧
2024-04-18
SQL
Prompt工程全攻略：15+Prompt框架一網打盡（BROKE、COAST、LangGPT）、學會提示詞讓大模型更高效
2024-03-25
框架ASTGPT大模型
Prompt learning 教學[進階篇]：簡介Prompt框架並給出nlp技術：Few-Shot Prompting等
2023-05-18
框架
解密Prompt系列38.多Agent路由策略
2024-09-18
解密路由
JavaScript prompt()
2018-09-22
JavaScript
Prompt Engneering
2024-07-27
構建高效的 Python Web 應用：最佳實踐指南
2024-07-27
PythonWeb
結構化思維助力Prompt創作：專業化技術講解和實踐案例
2024-03-04
Kubernetes YAML最佳實踐和策略
2020-11-03
YAML
解密Prompt系列1. Tunning-Free Prompt：GPT2 & GPT3 & LAMA & AutoPrompt
2023-02-10
解密GPT
Vue最佳實踐和實用技巧
2022-10-08
Vue
解密Prompt系列2. 凍結Prompt微調LM： T5 & PET & LM-BFF
2023-02-24
解密
LLM 模型融合實踐指南：低成本構建高效能語言模型
2024-02-21
模型
用mobx構建大型專案的最佳實踐(2)
2019-02-17
TensorFlow 下構建高效能神經網路模型的最佳實踐
2018-04-12
神經網路模型
React 進階二-元件最佳實踐
2019-03-14
React元件
解密Prompt系列3. 凍結LM微調Prompt: Prefix-Tuning & Prompt-Tuning & P-Tuning
2023-03-10
解密
HarmonyOS Next 網路加速進階：最佳化策略與應用實踐
2024-11-17
Prompt提示詞概念
2024-09-21
Direct Prompt Injections Pages
2024-07-06
Indirect Prompt Injections Pages
2024-07-06
Prompt工程師指南[從基礎到進階篇]：用於開發和最佳化提示，以有效地使用語言模型（LMs）進行各種應用和研究主題
2023-05-14
工程師模型
RAG實戰5-自定義prompt
2024-03-11
Dockerfile 多階段構建實踐
2021-08-25
Docker
Webpack自動化構建實踐指南
2019-03-03
Web
解密prompt系列5. APE+SELF=自動化指令集構建程式碼實現
2023-04-10
解密
大模型提示工程之Prompt框架和示例
2024-03-29
大模型框架
使用nodejs構建Docker image最佳實踐
2021-01-29
NodeJSDocker
ChatGPT提示詞（Prompt）框架
2024-09-20
ChatGPT框架
惡意 Prompt 攻擊
2024-11-01

Prompt進階2:LangGPT(構建高效能Prompt策略和技巧)--最佳實踐指南

Prompt進階2:LangGPT(構建高效能Prompt策略和技巧)--最佳實踐指南

0.前言

1.1 六大提高效能的策略

1.1 策略一:清晰地表達指令

1.2 策略二:提供參考文字

1.3 策略三:將複雜任務分解為更簡單的子任務

1.4 策略四:給予 GPT“思考”的時間

1.5 策略五:使用外部工具

1.6 策略六:系統地測試更改

2.技巧深入

2.1 策略一:清晰地表達指令

技巧:在查詢中包含更多細節以獲取更相關的回答

技巧:要求模型採用特定的角色

技巧:使用分隔符清楚地指示輸入的不同部分

技巧:指定完成任務所需的步驟

技巧:提供示例

技巧:指定期望的輸出長度

2.2 策略二:提供參考文字

技巧:指示模型使用提供的參考文字進行回答

技巧:指示模型使用參考文字中的引文進行回答

2.3 策略三:將複雜任務分解為更簡單的子任務

技巧:使用意圖分類識別與使用者查詢最相關的指令

技巧:對需要非常長對話的對話應用,彙總或過濾之前的對話

技巧:分段摘要長文件,遞迴構建完整摘要

2.4 策略四:給予 GPT“思考”的時間

技巧:指示模型在匆忙得出結論之前自己推匯出解決方案

技巧:使用內心獨白或一系列查詢來隱藏模型的推理過程

技巧:在前幾輪後詢問模型是否遺漏了相關資訊

2.5 策略:使用外部工具

技巧:使用基於嵌入的搜尋實現高效的知識檢索

技巧:使用程式碼執行進行更精確的計算或呼叫外部 API

技巧:系統地測試各種改變

技巧:參照標準答案來評估模型輸出

相關文章