相信很多使用者已經見識過或至少聽說過 Deep Research 的強大能力。 今天凌晨,OpenAI 宣佈 Deep Research 已經面向所有 ChatGPT Plus、Team、Edu 和 Enterprise 使用者推出(剛釋出時僅有 Pro 使用者可用),同時,OpenAI 還發布了 Deep Research 系統卡。此外,OpenAI 研究科學家 Noam Brown 還在 𝕏 上透露:Deep Research 使用的基礎模型是 o3 正式版,而非 o3-mini。Deep Research 是 OpenAI 本月初推出的強大智慧體,其能使用推理來綜合大量線上資訊併為使用者完成多步驟研究任務,從而助力使用者進行深入、複雜的資訊查詢與分析。參閱機器之心報導《剛剛,OpenAI 上線 Deep Research!人類終極考試遠超 DeepSeek R1》。 在釋出之後的這二十幾天裡,OpenAI 還對 Deep Research 進行了一些升級:OpenAI 這次釋出的 Deep Research 系統卡報告介紹了釋出 Deep Research 之前開展的安全工作,包括外部紅隊、根據準備度框架進行的風險評估,以及 OpenAI 為解決關鍵風險領域而採取的緩解措施。這裡我們簡單整理了這份報告的主要內容。地址:https://cdn.openai.com/deep-research-system-card.pdf Deep Research 是一種新的智慧體能力,可針對複雜任務在網際網路上進行多步驟研究。Deep Research 模型基於為網頁瀏覽進行了最佳化的 OpenAI o3 早期版本。Deep Research 利用推理來搜尋、解讀和分析網際網路上的大量文字、影像和 PDF,並根據遇到的資訊做出必要的調整。它還可以讀取使用者提供的檔案,並透過編寫和執行 Python 程式碼來分析資料。 「我們相信 Deep Research 可以幫助人們應對多種多樣的情形。」OpenAI 表示,「在釋出 Deep Research 並將其提供給我們的 Pro 使用者之前,我們進行了嚴格的安全測試、準備度評估和治理審查。我們還進行了額外的安全測試,以更好地瞭解與 Deep Research 瀏覽網頁的能力相關的增量風險,並增加了新的緩解措施。新工作的關鍵領域包括加強對線上釋出的個人資訊的隱私保護,以及訓練模型以抵禦在搜尋網際網路時可能遇到的惡意指令。」 OpenAI 還提到,對 Deep Research 的測試也揭示了進一步改進測試方法的機會。在擴大 Deep Research 的釋出範圍之前,他們還將花時間對選定的風險進行進一步的人工檢測和自動化測試。 本系統卡包含 OpenAI 如何構建 Deep Research、瞭解其能力和風險以及在釋出前提高其安全性的更多詳細資訊。 模型資料和訓練 Deep Research 的訓練資料是專門為研究用例建立的新瀏覽資料集。 該模型學習了核心的瀏覽功能(搜尋、單擊、滾動、解讀檔案)、如何在沙盒環境中使用 Python 工具(用於執行計算、進行資料分析和繪製圖表),以及如何透過對這些瀏覽任務進行強化學習訓練來推理和綜合大量網站以查詢特定資訊或撰寫綜合報告。 其訓練資料集包含一系列任務:從具有 ground truth 答案的客觀自動評分任務,到帶有評分標準的更開放的任務。 在訓練期間,評分過程使用的評分器是一個思維鏈模型,其會根據 ground truth 答案或評分標準給出模型響應的分數。 該模型的訓練還使用了 OpenAI o1 訓練用過的現有安全資料集,以及為 Deep Research 建立的一些新的、特定於瀏覽的安全資料集。 風險識別、評估和緩解 外部紅隊方法 OpenAI 與外部紅隊成員團隊合作,評估了與 Deep Research 能力相關的關鍵風險。 外部紅隊專注的風險領域包括個人資訊和隱私、不允許的內容、受監管的建議、危險建議和風險建議。OpenAI 還要求紅隊成員測試更通用的方法來規避模型的安全措施,包括提示詞注入和越獄。 紅隊成員能夠透過有針對性的越獄和對抗策略(例如角色扮演、委婉表達、使用駭客語言、莫爾斯電碼和故意拼寫錯誤等輸入混淆)來規避他們測試的類別的一些拒絕行為,並且根據這些資料構建的評估將 Deep Research 的效能與之前部署的模型進行比較。 評估方法 Deep Research 擴充套件了推理模型的能力,使模型能夠收集和推理來自各種來源的資訊。Deep Research 可以綜合知識並透過引用提出新的見解。為了評估這些能力,需要調整已有的一些評估方法,以解釋更長、更微妙的答案 —— 而這些答案往往更難以大規模評判。 OpenAI 使用其標準的不允許內容和安全評估對 Deep Research 模型進行了評估。他們還為個人資訊和隱私以及不允許的內容等領域開發了新的評估。最後,對於準備度評估,他們使用了自定義支架來引出模型的相關能力。 ChatGPT 中的 Deep Research 還使用了另一個自定義提示的 OpenAI o3-mini 模型來總結思維鏈。以類似的方法,OpenAI 也根據其標準的不允許內容和安全評估對總結器模型進行了評估。 觀察到的安全挑戰、評估和緩解措施 下表給出了風險和相應的緩解措施;每個風險的具體評估和結果請參閱原報告。準備度框架評估 準備度框架是一個動態文件,其中描述了 OpenAI 跟蹤、評估、預測和防範來自前沿模型的災難性風險的方式。 該評估目前涵蓋四個風險類別:網路安全、CBRN(化學、生物、放射、核)、說服和模型自主性。 只有緩解後(post-mitigation)得分為「中」或以下的模型才能部署,只有緩解後得分為「高」或以下的模型才能進一步開發。OpenAI 根據準備度框架對 Deep Research 進行了評估。 準備度框架詳情請訪問:https://cdn.openai.com/openai-preparedness-framework-beta.pdf 下面更具體地看看對 Deep Research 的準備度評估。Deep Research 基於針對網頁瀏覽進行了最佳化的 OpenAI o3 早期版本。為了更好地衡量和引出 Deep Research 的能力,OpenAI 對以下模型進行了評估:
Deep Research(緩解前),一種僅用於研究目的的 Deep Research 模型(未在產品中釋出),其後訓練程式與 OpenAI 已釋出的模型不同,並不包括公開發布的模型中的額外安全訓練。
Deep Research(緩解後),最終釋出的 Deep Research 模型,包括髮布所需的安全訓練。
對於 Deep Research 模型,OpenAI 測試了各種設定以評估最大能力引出(例如,有瀏覽與無瀏覽)。他們還根據需要修改了支架,以最好地衡量多項選擇題、長答案和智慧體能力。 為了幫助評估每個跟蹤風險類別中的風險級別(低、中、高、嚴重),準備團隊使用「indicator」將實驗評估結果對映到潛在風險級別。這些 indicator 評估和隱含風險水平經過安全諮詢小組(Safety Advisory Group)審查,該小組確定了每個類別的風險水平。當達到或看起來即將達到 indicator 閾值時,安全諮詢小組會進一步分析資料,然後確定是否已達到風險水平。 OpenAI 表示模型訓練和開發的整個過程中都進行了評估,包括模型啟動前的最後一次掃描。為了最好地引出給定類別中的能力,他們測試了各種方法,包括在相關情況下的自定義支架和提示詞。 OpenAI 也指出,生產中使用的模型的確切效能數值可能會因最終引數、系統提示詞和其他因素而異。 OpenAI 使用了標準 bootstrap 程式計算 pass@1 的 95% 置信區間,該程式會對每個問題的模型嘗試進行重新取樣以近似其指標的分佈。 預設情況下,這裡將資料集視為固定的,並且僅重新取樣嘗試。雖然這種方法已被廣泛使用,但它可能會低估非常小的資料集的不確定性,因為它只捕獲抽樣方差而不是所有問題級方差。換句話說,該方法會考慮模型在多次嘗試中對同一問題的表現的隨機性(抽樣方差),但不考慮問題難度或透過率的變化(問題級方差)。這可能導致置信區間過緊,尤其是當問題的透過率在幾次嘗試中接近 0% 或 100% 時。OpenAI 也報告了這些置信區間以反映評估結果的內在變化。 在審查了準備度情況評估的結果後,安全諮詢小組將 Deep Research 模型評級為總體中等風險(overall medium risk)—— 包括網路安全、說服、CBRN、模型自主性都是中等風險。 這是模型首次在網路安全方面被評為中等風險。 下面展示了 Deep Research 與其它對比模型在 SWE-Lancer Diamond 上的結果。請注意其中上圖是 pass@1 結果,也就是說在測試的時候,每個模型在每個問題上只有一次嘗試的機會。整體來看,各個階段的 Deep Research 的表現都非常好。其中,緩解後的 Deep Research 模型在 SWE-Lancer 上表現最佳,解決了大約 46-49% 的 IC SWE 任務和 47-51% 的 SWE Manager 任務。 更多評估細節和結果請訪問原報告。