OpenAI突然釋出智慧體API!支援網路和檔案搜尋以及computer use

机器之心發表於2025-03-12
「Agent/智慧體」可說是當今 AI 領域最炙手可熱的話題。今天凌晨,OpenAI 釋出了一系列可讓開發者透過 API 構建智慧體的新工具,其中最大的看點便是 Responses API⁠,這是對之前的 Chat Completions API 的一輪大升級,使其獲得了 Assistants API 般使用工具的能力,從而可以幫助開發者構建智慧體。目前,Responses API⁠ 已經內建了網路搜尋、檔案搜尋和計算機使用(computer use)能力。
圖片
OpenAI CEO Sam Altman 表示 Chat Completions API 是有史以來設計最完善、最實用的 API 之一。

熟悉大模型應用開發的人都知道,當今不少大模型提供商的服務都相容 OpenAI 之前提出的 Chat Completions API,其對行業標準化做出了非常大的貢獻。而今釋出的 Responses API⁠ 或許也將成為智慧體響應標準化的重要組成部分。
圖片
Chat Completions API 的一個簡單示例

除此之外,OpenAI 還發布了用於編排單智慧體和多智慧體工作流的 Agents SDK 以及用於跟蹤和檢查智慧體工作流程執行情況的 observability tools。

OpenAI 表示:「這些新工具簡化了核心智慧體邏輯、編排和互動,使開發者能夠更輕鬆地開始構建智慧體。在接下來的幾周和幾個月內,我們計劃釋出更多工具和功能,以進一步簡化和加速在我們的平臺上構建智慧體應用的過程。」

相關文件連結如下:

  • Responses API⁠:https://platform.openai.com/docs/quickstart?api-mode=responses
  • 網路搜尋:https://platform.openai.com/docs/guides/tools-web-search
  • 檔案搜尋:https://platform.openai.com/docs/guides/tools-file-search
  • computer use:https://platform.openai.com/docs/guides/tools-computer-use
  • Agents SDK:https://platform.openai.com/docs/guides/agents
  • observability tools:https://platform.openai.com/docs/guides/agents#orchestration

另外,OpenAI 還準備了 PlayGround 供開發者嘗試:https://platform.openai.com/playground/prompts?preset=ks7kayjX55ehTBR9oyUviuJe

下面來具體看看 OpenAI 今天釋出的東西。

Responses API 是什麼?

簡單來說,Responses API 是一種 API 新原語,其作用是使用 OpenAI 內建工具來構建智慧體。OpenAI 表示它將 Chat Completions 的簡單性與 Assistants API 的工具使用功能結合到了一起。「隨著模型功能的不斷進化,我們相信 Responses API 將為開發者構建智慧體應用提供更靈活的基礎。只需一次 Responses API 呼叫,開發者就能夠使用多個工具和模型輪次來解決越來越複雜的任務。」
圖片
首先,Responses API 將支援新的內建工具,如網路搜尋、檔案搜尋和 computer use。這些工具可以協同工作,將模型連線到現實世界,從而讓模型可以完成更加有用的任務。Responses API 還包含一些可用性改進,包括統一的基於事項(item)的設計、更簡單的多型性、直觀的流式事件和 SDK 助手(如可幫助輕鬆獲取模型的文字輸出的 response.output_text)。

對於希望輕鬆將 OpenAI 模型和內建工具結合到其應用中的開發者,Responses API 可提供一個統一的介面,而無需整合多個 API 或外部供應商。

該 API 還使在 OpenAI 上儲存資料變得更加容易,因此開發者可以使用跟蹤和評估等功能來評估智慧體效能。OpenAI 還特別指出:「即使資料儲存在 OpenAI 上,我們也不會預設使用業務資料來訓練我們的模型。」

Responses API 即日可用,並且不會單獨收費 ——token 和工具按照 OpenAI 定價頁面上指定的標準費率計費。

現有的 API 呢?

Chat Completions API:OpenAI 表示,Chat Completions 仍然是他們最廣泛採用的 API,他們也會讓新模型和新功能支援它。無需內建工具的開發者可以放心地繼續使用 Chat Completions。只要 Chat Completions 的功能不依賴於內建工具或呼叫多個模型,OpenAI 表示就會繼續釋出支援 Chat Completions 的新模型。而 Responses API 是 Chat Completions 的超集⁠,具有同樣出色的效能,因此對於新的整合,OpenAI 建議從 Responses API 開始。

Assistants API⁠:根據開發者對 Assistants API beta 的反饋,OpenAI 在 Responses API 中加入了一些關鍵改進,使其更加靈活、更快、更易於使用。OpenAI 表示正在努力實現 Assistants 和 Responses API 之間的完全功能對等,包括對類似 Assistant 和類似 Thread 的物件以及程式碼直譯器工具的支援。OpenAI 表示,完成這個過程後,就會正式宣佈棄用 Assistants API,目標截止日期為 2026 年中期。棄用後,OpenAI 將提供從 Assistants API 到 Responses API 的遷移指南,使開發者能夠保留所有資料並遷移其應用。而在正式宣佈棄用之前,OpenAI 將繼續讓新模型支援 Assistants API。

OpenAI 表示:「Responses API 代表了在 OpenAI 上構建智慧體的未來方向。」

Responses API 的內建工具

網路搜尋

開發者現在可以從網路上獲得快速、最新的答案,同時還帶有清晰且相關的引文。在 Responses API 中,使用 gpt-4o 和 gpt-4o-mini 時,網路搜尋可用作工具使用,並且可以與其他工具或函式呼叫搭配使用。
圖片
Responses API 中的網路搜尋使用了 ChatGPT 搜尋一樣的模型。OpenAI 也釋出了基準測試結果:在 SimpleQA 評估 LLM 回答簡短事實問題的準確性的基準)上,GPT-4o search preview 和 GPT-4o mini search preview 分別得分 90% 和 88%。
圖片
使用該 API 中的網路搜尋生成的響應會包含指向新聞文章和部落格文章等來源的連結,為使用者提供了一種瞭解更多資訊的方式。

任何網站或釋出者都可以選擇是否在該 API 中的網路搜尋中顯示。

目前,網路搜尋工具已在 Responses API 中以預覽版形式提供給所有開發者。OpenAI 還支援開發者透過 gpt-4o-search-preview 和 gpt-4o-mini-search-preview 直接訪問 Chat Completions API 中經過微調的搜尋模型。GPT‑4o search 和 4o-mini search 的定價分別為每千次查詢 30 美元和 25 美元。

檔案搜尋

開發者現在可以使用經過改進的檔案搜尋工具輕鬆地從大量文件中檢索相關資訊。其支援多種檔案型別、查詢最佳化、後設資料過濾和自定義重新排名,並能提供快速、準確的搜尋結果。同樣,使用 Responses API,只需幾行程式碼即可完成整合。
圖片
檔案搜尋工具可用於各種實際用例,包括使客服智慧體輕鬆訪問常見問題解答、幫助法律助理快速參考合格專業人員的過去案例以及協助程式設計智慧體查詢技術文件。

此工具在 Responses API 中可供所有開發者使用。使用價格為每千次查詢 2.50 美元,檔案儲存價格為 0.10 美元/GB /天,首 GB 免費。

該工具也將繼續在 Assistants API 中提供。最後,OpenAI 表示還向 Vector Store API 物件新增了一個新的搜尋端點,開發者可直接將其用於查詢自己的資料,然後用於其他應用和 API。

Computer Use

為了構建能夠在計算機上完成任務的智慧體,開發者現在可以使用 Responses API 中的 Computer Use 工具,該工具使用了 Computer-Using Agent(CUA)模型 —— 與 Operator 一樣。

而此研究預覽版(research preview)模型創下了新的 SOTA 記錄:在 OSWorld⁠ 的全 Computer Use 任務上實現了 38.1% 的成功率,在 WebArena⁠ 上實現 58.1% 的成功率,在 WebVoyager⁠ 的基於 Web 的互動任務上實現 87% 的成功率。

內建的 Computer Use 工具可捕獲模型生成的滑鼠和鍵盤操作,使開發者能夠透過將這些操作直接轉換為其環境中的可執行命令來自動執行 Computer Use 任務。
圖片
開發者可以使用 Computer Use 工具來自動化基於瀏覽器的工作流程,例如在 Web 應用上執行質量驗證任務或跨舊系統執行資料輸入任務。

OpenAI 表示,在去年推出支援 Operator 的 CUA 之前,他們進行了廣泛的安全測試和紅隊測試,解決了三個關鍵風險領域:誤用、模型錯誤和前沿風險。

而透過 API 中的 CUA 將 Operator 的功能擴充套件到本地作業系統也會引入新的風險,為此 OpenAI 進行了額外的安全評估和紅隊測試。

OpenAI 還為開發者新增了緩解措施,包括防止提示詞注入的安全檢查、敏感任務的確認提示、幫助開發者隔離其環境的工具以及增強對潛在政策違規行為的檢測。雖然這些緩解措施有助於降低風險,但該模型仍然容易受到無意錯誤的影響,尤其是在非瀏覽器環境中。

例如,CUA 在 OSWorld(旨在衡量 AI 智慧體在實際任務中的表現的基準)上的表現目前為 38.1%,這表明該模型對於在作業系統上自動執行任務還不夠可靠。在這些情況下,OpenAI 建議進行人工監督。

更多詳情可訪問已更新的系統卡:https://openai.com/index/operator-system-card/
圖片
從今天開始,Computer Use 工具將作為研究預覽版在 Responses API 中提供給使用等級為 3-5 的選定開發者。

使用價格為 3 美元/100 萬輸入 token 和 12 美元/100 萬輸出 token。

Agents SDK

除了構建智慧體的核心邏輯並讓它們能夠訪問有用的工具之外,開發者還需要編排智慧體工作流。

OpenAI 開源釋出的 Agents SDK 可簡化多智慧體工作流的編排,並且相比於 Swarm⁠ 有了顯著的改進。Swarm 是 OpenAI 去年釋出的實驗性 SDK 並已被開發者社群廣泛採用,可參閱機器之心報導《OpenAI 今天 Open 了一下:開源多智慧體框架 Swarm》。

  • 智慧體:易於配置的 LLM,具有清晰的說明和內建工具。
  • 交接:在智慧體之間智慧地轉移控制權。
  • 護欄:可配置的安全檢查,用於輸入和輸出驗證。
  • 跟蹤和可觀察性:視覺化智慧體執行跟蹤以除錯和最佳化效能。
圖片
智慧體 SDK 適用於各種實際應用,包括客戶支援自動化、多步驟研究、內容生成、程式碼審查和銷售潛在客戶挖掘。

Agents SDK 可與 Responses API 和 Chat Completions API 配合使用。只要其他提供商提供 Chat Completions 樣式的 API 端點,該 SDK 還可以與其他提供商的模型配合使用。

開發者可以立即將其整合到他們的 Python 程式碼庫中,Node.js 支援也即將推出。

OpenAI 還提到未來可能會開源 Agents SDK:「在設計 Agents SDK 時,我們的團隊受到了社群中其他人的出色工作的啟發,包括 Pydantic、Griffe 和 MkDocs。我們致力於繼續將 Agents SDK 構建為開源框架,以便社群中的其他人可以擴充套件我們的方法。」

最後,OpenAI 稱:「我們相信智慧體很快就會成為勞動力不可或缺的一部分,從而顯著提高各行業的生產力。隨著公司越來越多地尋求利用 AI 來完成複雜的任務,我們致力於為開發者和企業提供構建模組,使他們能夠有效地建立可產生實際影響的自動系統。」

Responses API⁠ 背後的故事

Responses API⁠ 背後的設計者之一、OpenAI 的 Atty Eleti 還在 𝕏 上分享了 Responses API⁠ 背後的故事。
圖片
他表示,Responses API⁠ 是他設計 OpenAI API 2 年的經驗累積的成果。

兩年前,他們與 GPT-3.5 Turbo 團隊一起推出了 Chat Completions。而這個 API 是他與 Rachel Lim 在一個週末內完成的:週五設計,週二釋出 GA。如今,Chat Completions 已成為事實上的行業標準,為數十萬個應用提供支援,並被每個主要模型提供商所採用。

當年晚些時候,他們釋出了 Assistants API 的 beta 版,這是構建智慧體原語的初稿。其執行在後臺進行,並能根據需要呼叫工具。

許多開發者喜歡它,因為它易於上手(只需使用 OpenAI 作為自己的資料庫!)並且透過「file_search」工具內建了強大的 RAG。

但從那時起,很多事情都發生了變化:今天的模型是多模態的(文字、影像、音訊)、智慧體形式的(呼叫一個或多個工具),並且在說話前會思考。

Chat Completions 不是為此設計的;它是無狀態的(會迫使你傳回大量影像和音訊),不支援工具,並且存在許多可用性問題(特別是,流式傳輸很難正確實現。)

Assistants 支援工具,但它太抽象了。你需要了解六個概念才能開始使用,而且後臺處理意味著它預設很慢。

這些 API 的形式成為了開發者呼叫底層功能的障礙。

Responses API 則將上述兩種 API 的優勢整合到了一起。

只需 4 行程式碼即可開始使用,只需一個引數即可包含檔案搜尋、網路搜尋、函式呼叫和結構化輸出等功能。
圖片
Responses 具有多種狀態。

預設情況下,所有 Responses 都會被儲存,使用者可以在儀表板中檢視它們,以便以後進行除錯。你可以使用「previous_response_id」繼續對話 —— 無需一次又一次地傳送大載荷。

Responses 也是狀態機(state-machines),可以更好地模擬不完整、中斷和失敗的模型輸出。
圖片
Responses 的核心概念是事項(item):表示使用者輸入或模型輸出的多型物件。事項可以表示訊息、推理、函式呼叫、Web 搜尋呼叫等。

Chat Completions 是訊息來來回回的列表,而 Responses 則是事項來來回回的列表。
圖片
託管工具(Hosted tools)是 Responses 的殺手級功能。

只需一行程式碼,你就可以在應用中獲得一流的網頁搜尋、檔案搜尋以及即將推出的程式碼直譯器。

至於 Responses 這個起名。Atty Eleti 指出「Responses 顯然與 HTTP Responses 衝突。」

「但我們堅信這個名字完美地平衡了優雅和描述性。我們在日常使用中都會問『模特的 Responses 是什麼?』」

Eleti 表示他們還考慮過 Tasks、Generations、Messages、Interactions、Conversations 等名稱。

他也總結了 OpenAI 的 API 設計哲學:交付能力,而非抽象。(Ship capabilities, not abstractions.)

最後,順帶一提,OpenAI CEO Sam Altman 在 𝕏 表示他們已經訓練出了一個擅長創意寫作的模型,不過釋出時間待定。他說:「這是我第一次真正被 AI 寫的東西所震撼;它恰到好處地傳達了元小說的氛圍。」

下面是他分享的提示詞和小說,感興趣的讀者可訪問這裡自行評鑑:https://x.com/sama/status/1899535387435086115
圖片
你對 OpenAI 今天的釋出怎麼看?

參考連結
https://openai.com/index/new-tools-for-building-agents/
https://x.com/btibor91/status/1899559543933452324
https://x.com/athyuttamre/status/1899541499261616339

相關文章