Claude都能操縱計算機了,吳恩達:智慧體工作流越來越成熟

机器之心發表於2024-11-15
受 ChatGPT 強大問答能力的影響,大型語言模型(LLM)提供商往往最佳化模型來回答人們的問題,以提供良好的消費者體驗。

隨著智慧體研究日趨成熟,最佳化似乎有了新的方向。

人工智慧著名學者、史丹佛大學教授吳恩達今天指出:「現在有一種趨勢是最佳化模型以適應智慧體工作流程,這將為智慧體效能帶來巨大提升」,並撰寫一篇部落格簡單闡述了這種趨勢。

圖片

我們對部落格內容進行了不改變原意的編譯、整理,以下是部落格內容:

繼 ChatGPT 在回答問題方面取得突破性成功之後,許多 LLM 的開發都集中在提供良好的消費者體驗上。因此,LLM 被調整為回答問題或遵循人類提供的指令。指令調整指導模型的資料集很大一部分可以為人類編寫的問題和指令提供更有用的答案,面向 ChatGPT、Claude、Gemini 等等。

但智慧體工作負載不同,人工智慧軟體不是直接為消費者生成響應,而是應該在迭代工作流程中:

  • 反思自己的輸出;
  • 使用工具;
  • 編寫規劃;
  • 在多智慧體環境中進行協作。

主要模型製造商也越來越多地最佳化用於 AI 智慧體的模型。

以工具使用(或函式呼叫)為例。如果 LLM 被問及當前天氣,它將無法從訓練資料中獲取所需的資訊。相反,它可能會生成 API 呼叫請求以獲取該資訊。甚至在 GPT-4 原生支援函式呼叫之前,應用程式開發人員就已經使用 LLM 來生成函式呼叫,透過編寫更復雜的提示來告訴 LLM 哪些函式可用,然後讓 LLM 生成用於確定是否要呼叫函式的字串。

在 GPT-4 之後,生成此類呼叫變得更加可靠,然後許多其他模型本身就支援函式呼叫。如今,LLM 可以決定呼叫函式來搜尋資訊以進行檢索增強生成 (RAG)、執行程式碼、傳送電子郵件、線上下訂單等等。

最近,Anthropic 推出了升級版的 Claude 3.5 Sonnet,能像人一樣使用計算機。這意味著 LLM 原生使用計算機方向向前邁出了一大步,將幫助許多開發人員。一些團隊還致力於讓 LLM 使用計算機構建新一代 RPA(機器人流程自動化)應用程式。

隨著智慧體工作流程的成熟,我看到的是:

  • 首先,許多開發人員正在 prompt LLM 來執行他們想要的智慧體行為。這樣可以進行快速、豐富的探索!
  • 在極少數情況下,開發非常有價值的應用程式的開發人員將微調 LLM,以更可靠地執行特定的智慧體功能。例如,儘管許多 LLM 本身支援函式呼叫,但它們是透過將可用函式的描述作為輸入,然後(希望)生成輸出 token 以請求正確的函式呼叫來實現這一點的。對於生成正確函式呼叫非常重要的任務關鍵型應用程式,針對應用程式的特定函式呼叫微調模型可顯著提高可靠性。(但請避免過早最佳化!我仍然看到太多團隊在進行微調,而他們可能應該在採取這種做法之前花更多時間進行 prompt。)
  • 最後,當諸如工具使用或計算機使用之類的能力對開發人員來說似乎很有價值時,主要的 LLM 提供商正在將這些能力直接構建到他們的模型中。儘管 OpenAI o1-preview 的高階推理對消費者有幫助,但我預計它對於智慧體推理和規劃會更有用。

大多數 LLM 都針對回答問題進行了最佳化,主要是為了提供良好的消費者體驗,我們已經能夠將它們「移植」到複雜的智慧體工作流程中,以構建有價值的應用程式。為支援智慧體中的特定操作而構建 LLM 的趨勢將為智慧體效能帶來很大提升。我相信,在未來幾年內,在這個方向上將實現巨大的智慧體能力提升。

原文連結:
https://www.deeplearning.ai/the-batch/issue-275/

相關文章