吳恩達:AI智慧體工作流今年將有巨大進展,可能超過下一代基礎模型

机器之心發表於2024-03-22
下一步是智慧體?

隨著 ChatGPT、GPT-4、Sora 的陸續問世,人工智慧的發展趨勢引起了廣泛關注,特別是 Sora 讓生成式 AI 模型在多模態方面取得顯著進展。人們不禁會問:人工智慧領域下一個突破方向將會是什麼?

今天,人工智慧著名學者、史丹佛大學教授吳恩達指出:AI 智慧體工作流將在今年推動人工智慧取得巨大進步,甚至可能超過下一代基礎模型。他呼籲所有從事人工智慧工作的人都關注 AI 智慧體工作流,並撰寫一篇部落格簡單闡述了原因。

圖片

我們對部落格內容進行了不改變原意的編譯、整理,以下是部落格內容:

當前,我們主要在零樣本模式下使用 LLM,提供 prompt,逐個 token 地生成最終輸出,沒有進行調整。

這類似於要求某人從頭到尾寫一篇文章,直接打字,不允許退格,並期望得到高質量的結果。儘管有困難,LLM 在這項任務上仍然表現得非常好!

然而,透過智慧體工作流,我們可以要求 LLM 多次迭代文件。例如,它可能需要執行一系列步驟:

  • 規劃大綱;

  • 決定需要進行哪些網路搜尋(如果需要),來收集更多資訊;

  • 寫初稿;

  • 通讀初稿,找出不合理的論點或無關資訊;

  • 修改草稿;

  • ......

這個迭代過程對於大多數人類作家寫出好的文字至關重要。對於人工智慧來說,這種迭代工作流會比單次編寫產生更好的結果。

Cognition AI 團隊釋出的首個 AI 軟體工程師 Devin 最近在社交媒體上引起了廣泛關注。吳恩達的團隊一直密切關注 AI 編寫程式碼的發展,並分析了多個研究團隊的結果,重點關注演算法在廣泛使用的 HumanEval 編碼基準上的表現。

如下圖所示,吳恩達的團隊發現:GPT-3.5(零樣本)的正確率為 48.1%,GPT-4(零樣本)的表現更好,為 67.0%。然而,相比於迭代智慧體工作流,從 GPT-3.5 到 GPT-4 的改進不大。事實上,在智慧體迴圈(agent loop)中,GPT-3.5 的正確率高達 95.1%。

圖片

開源智慧體工具和有關智慧體的學術文獻正在激增。這是一個令人興奮的時刻,也是一個令人困惑的時刻。為了幫助人們正確看待這項工作,吳恩達分享了一個對構建智慧體的設計模式進行分類的框架。

簡單來說,這個框架包括:

  • 反思:LLM 檢查自己的工作,以提出改進方法。

  • 工具使用:LLM 擁有網路搜尋、程式碼執行或任何其他功能來幫助其收集資訊、採取行動或處理資料。

  • 規劃:LLM 提出並執行一個多步驟計劃來實現目標(例如,撰寫論文大綱,然後進行線上研究,然後撰寫草稿......)。

  • 多智慧體協作:多個 AI 智慧體一起工作,分配任務並討論和辯論想法,以提出比單個智慧體更好的解決方案。

吳恩達表示 AI Fund 已在許多應用程式中成功使用這些模式,後續他將詳細闡述這些設計模式。

參考連結:

https://twitter.com/AndrewYNg/status/1770897666702233815

https://www.deeplearning.ai/the-batch/issue-241/

相關文章