吳恩達：四個步驟，讓大模型變得更好

机器之心發表於2024-05-18

原文網址 : https://www.jiqizhixin.com/articles/2024-05-18-2

本週，生成式 AI 的競爭達到了新的高潮。

前有 OpenAI 搶先發布 GPT-4o，後有谷歌在 I/O 開發者大會上釋出一系列生成式人工智慧模型與產品。

自 2022 年 11 月 OpenAI 推出 ChatGPT，至今已有 18 個月。學界、業界為了提升生成式 AI 模型的能力，做出了諸多努力。

今天，著名人工智慧學者、史丹佛大學教授吳恩達高度總結了提升生成式 AI 模型能力的方式，主要包括：1）提升模型的推理能力；2）擴充套件上下文視窗，並撰寫一篇部落格闡述了一套通用且高效的 prompt 策略。

我們對部落格內容進行了不改變原意的編譯、整理，以下是部落格內容：

本週，谷歌宣佈將 Gemini Pro 1.5 的輸入上下文視窗擴大一倍，從 100 萬 token 擴充套件到 200 萬 token；OpenAI 釋出了 GPT-4o，它的生成速度是 GPT-4 Turbo 的 2 倍，而且便宜 50%，原生支援輸入、生成多模態 token。這是 18 個月以來的最新進展。

自 2022 年 11 月 ChatGPT 推出以來，隨著 GPT-4、Gemini 1.5 Pro、Claude 3 Opus 和 Llama 3-70B 的釋出等重要里程碑的到來，許多模型提供商透過兩個重要方式提高了自己的能力：

提升模型的推理能力，使 LLM 能夠思考複雜的概念並遵循複雜的指令；
更長的輸入上下文視窗。

GPT-4 和其他高階模型的推理能力使它們非常擅長解釋帶有詳細說明的複雜 prompt。許多人習慣向 LLM 快速提出 1 - 2 句話的查詢。相比之下，在構建應用程式時，我看到經驗豐富的團隊經常編寫可能長達 1 - 2 頁的 prompt（我的團隊稱其為「mega-prompt」），這些 prompt 提供複雜的指令來詳細說明我們希望 LLM 如何執行一個任務。我仍然認為團隊在編寫詳細指令方面做得不夠好。有關中等長度 prompt 的示例，請檢視 Claude 3 的系統 prompt，詳細且為 Claude 應該如何執行任務提供了明確的指導。

這是一種與我們通常在 LLM 網路使用者介面中使用的非常不同的 prompt 方式。在這種方式中，我們可能會快速進行查詢，如果響應不滿意，則透過與聊天機器人反覆對話來表述清楚我們想要什麼。

此外，輸入上下文視窗長度的增加為開發人員的工具箱新增了另一種技術。GPT-3 激發了關於小樣本上下文學習的大量研究。例如，如果您使用 LLM 進行文字分類，您可能會提供一些（例如 1 - 5 個）文字片段及其類別標籤的樣本，以便它可以泛化到其他文字。

GPT-4o 接受 128000 個輸入 token，Claude 3 Opus 200000 個 token，Gemini 1.5 Pro 100 萬個 token（200 萬個 token 目前僅適用於預覽版）。然而，隨著輸入上下文視窗變得越來越長，人們發現 LLM 並不侷限於少數樣本。透過多樣本（many-shot）學習，開發人員可以在 prompt 中給出數十個甚至數百個樣本，這比少樣本（few-shot）學習效果更好。

在構建複雜的工作流時，我看到開發人員透過如下過程獲得了良好的結果：

編寫快速、簡單的 prompt，看看效果如何。
根據輸出不足的地方，迭代地充實 prompt。這通常會導致更長、更詳細的 prompt，甚至可能是「mega-prompt」。
如果這仍然不夠，請考慮少樣本或多樣本學習（如果適用），或者不太頻繁地進行微調。
如果仍然不能產生您需要的結果，請將任務分解為子任務並應用智慧體工作流。

我希望這個過程能夠幫助大家更輕鬆地構建應用程式。如果您有興趣更深入地研究 prompt 策略，我推薦 Medprompt 論文，其中列出了一組複雜的 prompt 策略，可以帶來非常好的結果。

^{Medprompt 論文，連結：https://arxiv.org/pdf/2311.16452}

^{參考連結：}

^{https://twitter.com/AndrewYNg/status/1791134037178020308}

^{https://www.deeplearning.ai/the-batch/issue-249/}

好程式設計師web前端分享7個步驟：讓JavaScript變得更好
2019-04-18
程式設計師Web前端JavaScript
吳恩達大模型教程筆記-一-
2024-10-01
吳恩達大模型筆記
吳恩達大模型教程筆記-十一-
2024-10-01
吳恩達大模型筆記
吳恩達大模型教程筆記-十-
2024-10-01
吳恩達大模型筆記
吳恩達大模型教程筆記-三-
2024-10-01
吳恩達大模型筆記
吳恩達大模型教程筆記-七-
2024-10-01
吳恩達大模型筆記
吳恩達大模型教程筆記-六-
2024-10-01
吳恩達大模型筆記
吳恩達大模型教程筆記-二-
2024-10-01
吳恩達大模型筆記
8個小技巧，讓一個遊戲變得更好玩
2019-11-06
遊戲
吳恩達出手，開源最新Python包，一個介面呼叫OpenAI等模型
2024-11-26
吳恩達PythonOpenAI模型
讓《荒野大鏢客 OL》變得更好玩的五大設想
2019-04-28
吳恩達《序列模型》課程筆記（2）– NLP & Word Embeddings
2018-08-02
吳恩達模型筆記
What！吳恩達去參加美國大選了？？？
2020-04-06
吳恩達
吳恩達《序列模型》課程筆記（3）– Sequence models & Attention mechanism
2018-08-02
吳恩達模型筆記
2024吳恩達機器學習
2024-08-27
吳恩達機器學習
如何讓專案質量管理變得比以前更好？
2022-07-06
四個步驟，讓企業快速融入精益生產思想！
2022-08-03
Masonite 熟悉步驟小記錄（四、模型建立）
2020-06-07
模型
改變傳統，吳恩達開源了一個機器翻譯智慧體專案
2024-06-13
吳恩達智慧體
設立目標四個步驟
2024-10-16
吳恩達機器學習系列1——單變數線性迴歸
2022-02-10
吳恩達機器學習變數
吳恩達《序列模型》課程筆記（1）– 迴圈神經網路（RNN）
2018-08-02
吳恩達模型筆記神經網路RNN
吳恩達機器學習課程02——模型描述與代價函式
2020-10-17
吳恩達機器學習模型函式
吳恩達機器學習筆記（3）
2019-01-21
吳恩達機器學習筆記
Coursera 吳恩達《Machine Learning》視訊 + 作業
2018-08-03
吳恩達Mac
吳恩達神經網路-第一週
2024-04-12
吳恩達神經網路
吳恩達深度學習：三維卷積
2020-11-15
吳恩達深度學習卷積
吳恩達機器學習提交問題
2020-11-02
吳恩達機器學習
吳恩達 Convolutional Neural Networks第二週quizzes
2018-03-02
吳恩達UI
五個步驟幫助你更好地處理工資單
2023-03-28
獨立遊戲能讓次世代主機變得更好嗎？
2020-12-08
遊戲
《AI轉型指南》釋出：吳恩達喊話CEO，AI轉型分5步
2018-12-14
AI吳恩達
吳恩達機器學習筆記 —— 2 單變數線性迴歸
2018-07-10
吳恩達機器學習筆記變數
吳恩達機器學習筆記 —— 5 多變數線性迴歸
2018-07-16
吳恩達機器學習筆記變數
迴歸測試的四個步驟
2024-04-22
製作Wardley Maps四個步驟 - Paul
2022-12-05
吳恩達釋出《AI轉型指南》：喊話CEO們，AI轉型分五步
2018-12-21
吳恩達AI
我從吳恩達AI For Everyone中學到的10個重要AI觀
2020-06-17
吳恩達AI

吳恩達：四個步驟，讓大模型變得更好

相關文章