編輯 | matrix
科技巨頭 OpenAI 於 2 月 2 日推出付費工具「Deep Research」,這款工具能將數十或數百個網站的資訊綜合為帶有引用的完整報告。
此舉緊隨谷歌在去年 12 月釋出的類似產品,標誌著 AI 個人研究助手時代的來臨。這類工具最顯著的特點是將原本需要數小時的研究工作壓縮至數十分鐘內完成,引發學界廣泛關注。
這兩款工具的技術基礎各具特色。OpenAI 的產品基於其改進的 O3 大語言模型(LLM),整合了增強的推理能力和網際網路搜尋功能。而谷歌的 Deep Research 則採用 Gemini 1.5 Pro 作為基礎,尚未使用其最新的 2.0 Flash Thinking 推理模型。這種技術路線的差異也反映在工具的實際表現上。
效能測試與評估
在效能測試方面,這些工具展現出令人矚目的潛力。
OpenAI 的 Deep Research 在「人類最後的考試」(HLE)中取得 26.6% 的成績,在 GAIA 基準測試中更是達到 58.03% 的高分,超過了目前公開排行榜上 40.82% 的最高記錄。
相關連結:https://www.techradar.com/computing/artificial-intelligence/openais-deep-research-smashes-records-for-the-worlds-hardest-ai-exam-with-chatgpt-o3-mini-and-deepseek-left-in-its-wake
這些資料雖然令人印象深刻,但正如 White 所說,現有的基準測試可能並不完全適合評估這類生成長篇綜述的工具,未來可能需要更多基於人類評估的功能性測試標準。
相關連結:https://arxiv.org/abs/2409.13740
實際應用與評價
在實際應用中,這些工具展現出顯著的研究輔助能力。
舊金山初創公司 FutureHouse 的化學家和 AI 專家 Andrew White 指出,谷歌的產品充分發揮了其在搜尋和計算領域的優勢,能快速幫助使用者掌握新課題。
同時,康涅狄格州法明頓傑克遜實驗室的免疫學家 Derya Unutmaz 表示,OpenAI 的報告質量已達到或超越了傳統的學術綜述水平。他甚至認為,傳統的綜述寫作方式可能正在變得過時。
這種觀點得到了 White 的認同,他特別指出傳統人工更新綜述的週期限制,認為 AI 系統可能為學術文獻的持續更新提供新的可能。
侷限與挑戰
然而,這些工具的侷限性同樣不容忽視。
OpenAI 官方承認其工具仍處於早期階段,存在引用錯誤、事實幻想、無法準確區分權威資訊與謠言等問題。谷歌則提醒使用者需要對 Gemini 的輸出進行復核。
德國馬克斯·普朗克光科學研究所的 Mario Krenn 更進一步指出,當前的 AI 工具與科學研究的本質仍有距離,真正的科研工作需要多年專注和新思想的演化,這是 AI 目前尚未展現的能力。
這些工具目前面臨的最大挑戰之一是無法訪問付費內容,包括大量重要的學術論文。這個問題得到了 OpenAI CEO Sam Altman 的關注,他承認需要為此找到解決方案。這不僅關係到工具的實用性,更涉及學術資源獲取的公平性問題。
未來展望
展望未來,AI 研究助手可能將重塑學術研究的方式。它們不僅能提高研究效率,還可能促進知識的更快傳播和更新。但要真正實現這一潛力,還需要解決準確性、可靠性和資源獲取等一系列挑戰。
隨著技術的進步和更多實踐檢驗,這些工具的能力和應用場景必將進一步擴充,為學術研究帶來新的可能。
原文連結:https://www.nature.com/articles/d41586-025-00377-9