本週,生成式 AI 的競爭達到了新的高潮。
前有 OpenAI 搶先發布 GPT-4o,後有谷歌在 I/O 開發者大會上釋出一系列生成式人工智慧模型與產品。
自 2022 年 11 月 OpenAI 推出 ChatGPT,至今已有 18 個月。學界、業界為了提升生成式 AI 模型的能力,做出了諸多努力。
今天,著名人工智慧學者、史丹佛大學教授吳恩達高度總結了提升生成式 AI 模型能力的方式,主要包括:1)提升模型的推理能力;2)擴充套件上下文視窗,並撰寫一篇部落格闡述了一套通用且高效的 prompt 策略。
我們對部落格內容進行了不改變原意的編譯、整理,以下是部落格內容:
本週,谷歌宣佈將 Gemini Pro 1.5 的輸入上下文視窗擴大一倍,從 100 萬 token 擴充套件到 200 萬 token;OpenAI 釋出了 GPT-4o,它的生成速度是 GPT-4 Turbo 的 2 倍,而且便宜 50%,原生支援輸入、生成多模態 token。這是 18 個月以來的最新進展。
自 2022 年 11 月 ChatGPT 推出以來,隨著 GPT-4、Gemini 1.5 Pro、Claude 3 Opus 和 Llama 3-70B 的釋出等重要里程碑的到來,許多模型提供商透過兩個重要方式提高了自己的能力:
提升模型的推理能力,使 LLM 能夠思考複雜的概念並遵循複雜的指令;
更長的輸入上下文視窗。
GPT-4 和其他高階模型的推理能力使它們非常擅長解釋帶有詳細說明的複雜 prompt。許多人習慣向 LLM 快速提出 1 - 2 句話的查詢。相比之下,在構建應用程式時,我看到經驗豐富的團隊經常編寫可能長達 1 - 2 頁的 prompt(我的團隊稱其為「mega-prompt」),這些 prompt 提供複雜的指令來詳細說明我們希望 LLM 如何執行一個任務。我仍然認為團隊在編寫詳細指令方面做得不夠好。有關中等長度 prompt 的示例,請檢視 Claude 3 的系統 prompt,詳細且為 Claude 應該如何執行任務提供了明確的指導。
這是一種與我們通常在 LLM 網路使用者介面中使用的非常不同的 prompt 方式。在這種方式中,我們可能會快速進行查詢,如果響應不滿意,則透過與聊天機器人反覆對話來表述清楚我們想要什麼。
此外,輸入上下文視窗長度的增加為開發人員的工具箱新增了另一種技術。GPT-3 激發了關於小樣本上下文學習的大量研究。例如,如果您使用 LLM 進行文字分類,您可能會提供一些(例如 1 - 5 個)文字片段及其類別標籤的樣本,以便它可以泛化到其他文字。
GPT-4o 接受 128000 個輸入 token,Claude 3 Opus 200000 個 token,Gemini 1.5 Pro 100 萬個 token(200 萬個 token 目前僅適用於預覽版)。然而,隨著輸入上下文視窗變得越來越長,人們發現 LLM 並不侷限於少數樣本。透過多樣本(many-shot)學習,開發人員可以在 prompt 中給出數十個甚至數百個樣本,這比少樣本(few-shot)學習效果更好。
在構建複雜的工作流時,我看到開發人員透過如下過程獲得了良好的結果:
編寫快速、簡單的 prompt,看看效果如何。
根據輸出不足的地方,迭代地充實 prompt。這通常會導致更長、更詳細的 prompt,甚至可能是「mega-prompt」。
如果這仍然不夠,請考慮少樣本或多樣本學習(如果適用),或者不太頻繁地進行微調。
如果仍然不能產生您需要的結果,請將任務分解為子任務並應用智慧體工作流。
我希望這個過程能夠幫助大家更輕鬆地構建應用程式。如果您有興趣更深入地研究 prompt 策略,我推薦 Medprompt 論文,其中列出了一組複雜的 prompt 策略,可以帶來非常好的結果。
Medprompt 論文,連結:https://arxiv.org/pdf/2311.16452
參考連結:
https://twitter.com/AndrewYNg/status/1791134037178020308
https://www.deeplearning.ai/the-batch/issue-249/