剛剛,OpenAI上線Deep Research!人類終極考試遠超DeepSeek R1

机器之心發表於2025-02-03
一覺醒來,OpenAI 又發新產品了,這次是面向深度研究領域的智慧體產品 ——「Deep Research」。
圖片
具體來講,這是一個使用推理來綜合大量線上資訊併為使用者完成多步驟研究任務的智慧體,旨在幫助使用者進行深入、複雜的資訊查詢與分析。目前,Pro 使用者現已可用,接下來還將開放給 Plus 和 Team 使用者使用。
圖片
圖片
有了這個新的智慧體,使用者將可以在 ChatGPT 中開啟深度研究,在幾十分鐘內完成人類需要數小時才能完成的工作。

作為 OpenAI 的下一代智慧體,Deep Research 可以獨立為使用者工作。使用者給它一個提示,ChatGPT 將查詢、分析和綜合數百個線上資源,以研究分析師的水平建立一份綜合報告。Deep Research 由即將推出的 o3 模型的一個版本提供支援,該模型針對網頁瀏覽和資料分析進行了最佳化,它利用推理來搜尋、解釋和分析網際網路上的大量文字、影像和 PDF,並根據需要根據遇到的資訊做出調整。

OpenAI 表示,綜合知識的能力是創造新知識的先決條件。因此,Deep Research 標誌著 OpenAI 朝著開發 AGI 的更廣泛目標邁出了重要一步。OpenAI 長期以來一直設想 AGI 能夠產生新穎的科學研究。

從大家的反應來看,OpenAI 這次的智慧體產品切中了使用者的需求,甚至有人認為這是邁向智慧體 AI 的重要里程碑。
圖片
OpenAI 的 Deep Research 透過搜尋網路並將知識綜合成研究論文,這種自主研究標誌著 AI 進入到了自我發現新知識的下一步。
圖片
圖源:X@tsarnick

構建 Deep Research 的目的

Deep Research 是為那些在金融、科學、政策和工程等領域從事密集知識工作並需要徹底、精確和可靠研究的使用者而量身打造的。

同時,Deep Research 對於尋找超個性化推薦的挑剔購物者同樣有用,這些推薦通常需要仔細研究才能購買如汽車、家電和傢俱。每個輸出都經過完整記錄,並附有清晰的引文和思路摘要,以便於引用和驗證資訊。同樣地,Deep Research 在查詢需要瀏覽大量網站的小眾、非直觀資訊方面也特別有效。

總之,Deep Research 讓使用者只需一個查詢即可加快複雜、耗時的網路研究,從而釋放寶貴的時間。

此外,Deep Research 能夠獨立發現、推理和整合來自網路的見解。為了實現這一點,它接受了需要使用瀏覽器和 Python 工具的現實任務的訓練,使用了 OpenAI 第一個推理模型 o1 背後的相同強化學習方法。雖然 o1 在編碼、數學和其他技術領域表現出令人印象深刻的能力,但許多現實世界的挑戰需要從各種線上來源收集廣泛的背景和資訊。Deep Research 利用這些推理能力來彌補這一差距,使其能夠解決人們在工作和日常生活中面臨的各類問題。

如何使用 Deep research

在 ChatGPT 中,選擇「message composer」中的 deep research 並輸入查詢。告訴 ChatGPT 你需要什麼 —— 無論是關於流媒體平臺的競爭分析,還是關於最佳通勤的個性化報告都可以。甚至你也可以附加檔案或電子表格,為問題新增上下文。一旦開始執行,側邊欄將顯示所採取的步驟和使用的來源摘要。

Deep research 可能需要 5 到 30 分鐘的時間來完成其工作,因為它需要深入挖掘網路資訊。在此期間,使用者可以離開或處理其他任務 —— 任務完成後你會收到通知。最終結果將以報告的形式出現在聊天中 —— 在接下來的幾周內,OpenAI 還將為這些報告新增嵌入的影像、資料視覺化和其他分析輸出,以提供更清晰的說明和上下文。

與 deep research 相比,GPT-4o 更適合實時的多模態對話。對於需要深度和細節的各個方面、特定領域的查詢,deep research 能夠進行廣泛的探索並引用每個宣告。

下面是一些 GPT-4o 與 deep research 對比。

大海撈針。

詢問 GPT-4o:「前段時間我看過一部電視劇。我忘了名字,但我記得其中一集發生了什麼。你能幫我找到名字嗎?以下是我記得的一集內容:

兩個男人玩撲克。一個棄牌,另一個讓他下注。棄牌的人實際上手牌很好,但被騙了。第二手牌,同一個人再次棄牌,但這次手牌很糟糕

請深入瀏覽網頁,找到發生此事的電視劇集。」

GPT-4o 回答:「根據您提供的詳細資訊,您似乎指的是電視劇《僕人》中的一集。這部劇由 Tony Basgallop 創作,M. Night Shyamalan 擔任執行製片人,於 2019 年在 Apple TV+ 上首播。故事圍繞一對費城夫婦展開,他們在經歷了巨大的損失後,僱傭了一名年輕保姆,導致他們家中發生了一系列令人不安的事件……」

詢問 deep research 同樣的問題,其給出的答案:「您所描述的三個事件都發生在 Starz 系列劇《Counterpart》第一季第四集,標題為 Both Sides Now。在這一集中……」

以下是完整過程:
圖片
在上述例子中,deep research 被賦予了一個模糊的查詢,即使對人類來說也很難找到答案,因為沒有關鍵詞能夠輕易揭示查詢的答案。deep research 能夠以創造性和永續性的方式進行搜尋,直到找到一個完全符合條件的結果。

類似的對比還有通用知識(general knowledge)的查詢:「NFL 球員的平均退休年齡是多少?」
圖片
在這個例子中,deep research 提供了需要考慮的組成部分和因素,而不僅僅是一個數字。它更加全面,提供了清晰的統計背景,使用了支援性的例子,並直接解釋了射門員相對於其他位置球員職業生涯較長的原因。這種細節和清晰度使得 deep research 更具資訊量,並更直接地回應了那些希望瞭解 NFL 退休年齡趨勢的人的需求。

如何工作

Deep Research 透過端到端的強化學習在多個領域的複雜瀏覽和推理任務上進行了訓練。透過這種訓練,它學會了規劃和執行多步驟的軌跡,以找到所需的資料,並在必要時回溯和實時響應資訊。

Deep Research 還能夠瀏覽使用者上傳的檔案,使用 Python 工具繪製和迭代圖表,在生成的圖表和從網站獲取的影像中嵌入其響應,並引用其來源中的特定句子或段落。得益於這種訓練,Deep Research 在多個專注於現實世界問題的公開評估中達到了新的高度。

人類終極考試(Humanity’s Last Exam)

對於最近釋出的「人類終極考試」評估,在專家級問題上對廣泛學科的人工智慧進行了測試,支援 Deep Research 的模型以 26.6% 的準確率創下了新高

這項測試包括 3,000 多個多項選擇題和簡答題,涵蓋了從語言學到火箭科學、古典文學到生態學的 100 多個學科。與 o1 相比,進步最大的是化學、人文和社會科學以及數學。支援 Deep Research 的模型展示了一種類人方法,可以在必要時有效地尋找專業資訊。
圖片
GAIA 基準測試

在評估人工智慧在現實問題上表現的公共基準 GAIA 上,支援 Deep Research 的模型達到了新的 SOTA 水平,位居排行榜榜首。這些任務涵蓋三個難度級別的問題,成功完成需要具備推理、多模式流暢性、網頁瀏覽和工具使用熟練等能力。
圖片
我們來看一個 GAIA 任務示例:
圖片
專家級別的任務

在對各個領域專家級任務進行的內部評估中,領域專家認為 Deep Research 可以自動完成數小時的艱難手動調查
圖片
以下兩圖分別為專家級任務的透過率(按估計經濟價值計算)以及專家級任務的預計小時數透過率。
圖片
圖片
專家級別的任務示例如下:
圖片
ChatGPT 中的 Deep research 目前對計算資源的需求非常高。research 一個查詢所需的時間越長,耗費的推理計算資源就越多。

從現在開始,OpenAI 推出了針對 Pro 使用者最佳化的版本,每月最多可進行 100 次查詢。接下來將會向 Plus 和 Team 使用者開放,隨後是 Enterprise 使用者。

目前,Deep research 功能已在 ChatGPT 網頁版上線,並將在本月內逐步推廣到移動和桌面應用程式。目前,Deep research 可以訪問開放的網際網路以及任何上傳的檔案。未來,將能夠連線到更多專業的資料來源。

現在看來,Deep research 能夠進行非同步的線上查詢,而 Operator 則能夠在現實世界中採取行動,兩者的結合將使 ChatGPT 能夠為使用者執行越來越複雜的任務。

不過,值得一提的是,Deep research 目前仍處於早期階段,並且存在侷限性。根據內部評估,它有時會在響應中產生幻覺或做出錯誤推斷,但發生率明顯低於現有的 ChatGPT 模型,它可能難以區分權威資訊和謠言。在釋出之際,Deep research 報告和引文中可能會出現輕微的格式錯誤,任務可能需要更長時間才能啟動。所有這些問題都會隨著使用和時間的推移而迅速改善。

部落格地址:https://openai.com/index/introducing-deep-research/

相關文章