讓大模型網際網路「衝浪」,通義實驗室WebWalker解鎖複雜資訊檢索新技能

机器之心發表於2025-01-27
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文主要作者來自通義實驗室和東南大學,通訊作者是通義實驗室蔣勇和東南大學周德宇。其中第一作者吳家隆,東南大學碩士二年級,主要研究方向是 Agent 和 Efficient NLP,該工作在阿里巴巴通義實驗室 RAG 團隊科研實習完成。

在資訊爆炸的時代,網際網路就像一座龐大的迷宮,藏著無數寶藏。但傳統搜尋引擎往往只能觸及表面,對於複雜、多層級的資訊檢索顯得力不從心。比如,你想知道某個學術會議的詳細議程、嘉賓介紹,還得自己手動點開一個個網頁點選深挖,費時費力。

通義實驗室 RAG 團隊提出 WebWalker 幫你解決這一問題!
圖片
如 gif 所示,給定 ACL 2025 的網頁地址和問題:industry track 的截止日期和開會地址。WebWalker 透過一次又一次的 Click 點選依次找到對應的資訊,對網站進行充分的探索和挖掘。

就其應用場景來說,WebWalker 既可以作為獨立的網頁資訊檢索助手,或無縫整合到 RAG 系統中,擴充其應用範圍,讓它們能夠處理更加複雜、多步驟的資訊檢索任務。
圖片
圖片
  • 論文標題:WebWalker: Benchmarking LLMs in Web Traversal

  • 論文地址:https://arxiv.org/pdf/2501.07572

  • Homepage 地址:

    https://alibaba-nlp.github.io/WebWalker/

  • Modelscope Demo 地址:

    https://www.modelscope.cn/studios/jialongwu/WebWalker

  • Huggingface Demo 地址:

    https://huggingface.co/spaces/callanwu/WebWalker

  • Dataset 地址:

    https://huggingface.co/datasets/callanwu/WebWalkerQA

  • Leaderboard 地址: https://huggingface.co/spaces/callanwu/WebWalkerQALeadeboard

  • Github 地址:

    https://github.com/Alibaba-NLP/WebWalker

背景:大模型的「知識侷限」與檢索瓶頸

大型語言模型(LLMs)在自然語言處理任務中大放異彩,但它們的「知識」 在訓練後就固定了。雖然透過檢索增強生成(RAG)能從網上獲取最新資訊,傳統搜尋引擎的橫向搜尋方式,很難深入挖掘網站內部深層內容,導致大模型在處理複雜資訊時「心有餘而力不足」。

傳統搜尋引擎如谷歌、必應等,它們的搜尋方式,我們定義為對問題水平方向的搜尋,難以深入到網站內部,挖掘那些深埋在網頁之下的深層內容,對於隱藏在網頁深層的有價值資訊無能為力。無法像人類一樣透過點選、輸入等操作,逐步深入探索網頁,獲取豐富的細節。

解決思路

研究者首先定義了 Web Traversal 任務,即給定一個與問題相關的初始網站,系統地遍歷網頁以揭露隱藏在其中的資訊對問題進行回答。同時,WebWalkerQA 應運而生,專門設計來評估大模型處理複雜、多步驟網頁互動中嵌入查詢能力的基準測試。其聚焦於文字推理能力,採用問答格式來評估大模型在網頁場景中的問題解決能力,並且將動作限制為「Click 點選」,以更精準地評估智慧體的導航和資訊尋求能力,這種正規化更加貼合實際應用場景。

同時,研究者提出了一個基於 Multi-Agent 框架搭建的 WebWalker 框架,進行網頁的遊走,獲取需要的資訊。

WebWalkerQA 基準

WebWalkerQA 透過兩階段漏斗式標註策略構建資料,先用 GPT-4o 進行初步標註,再由眾包標註者進行質量控制和篩選,最終獲得高質量的 680 個問答對,覆蓋 1373 個網頁,其中涉及到的領域有教育、會議、組織和遊戲,貼近現實真實場景,並且分為多源和單源問答兩種型別,模擬人類不同網頁探索行為。

同時,團隊了開源了 14k 條 silver data,包含了詳細的頁面點選的 trajectory,以供後續研究者研究使用。

WebWalker 框架

WebWalker 框架由 Explorer Agent 和 Critic Agent 組成。Explorer Agent 基於遵循思考 - 行動 - 觀察正規化,負責在網頁中點選按鈕、跳轉頁面;Critic Agent 則負責記憶,維護一個 Memory 來儲存對問題回答有幫助的資訊和判斷當前 Memory 中的資訊能否對問題進行回答。

這種分工協作讓大模型更高效地管理記憶,應對長文字和複雜邏輯。WebWalker 讓大模型在網頁導航任務中能夠更加高效地處理長文字資訊,深入網頁挖掘有價值的內容。
圖片
實驗結果

研究者分別在兩種設定下測試了 WebWalkerQA 的效能。第一種是 Agent 在 Web Traversal 任務下的效能,即輸入給定的網頁和問題,讓 Agent 在網頁內遊走,獲取資訊進行回答。

另外,研究者分別在兩種最主流的 Single-Agent 框架 ReAct 和 Reflexion 以及他們提出的 WebWalker 上進行了測試。測試指標分別是問答的正確率和正確回答的情況下 Agent 執行點選的次數 Action Count。

在 Agent 上的效能
從下圖可以看出,資料集深度越深,考察內容越多,需要挖掘的資訊越難找到,效能越低,這與論文構造 WebWalkerQA 想要考察的內容是一致的。

相比於 ReAct 和 Reflexion 框架,引入 Multi-Agent 的 WebWalker 框架對於長上下文理解的網頁探索任務很有作用。

總體來說,WebWalkerQA 對現有 Agent 來說是仍有挑戰,即使是效能最強的基於 GPT-4o 的 WebWalker,其表現也未達理想狀態,僅僅只有 40,凸顯了該基準的難度。
圖片
詳細分析
如下左圖是基於不同基座 LLM 在不同 Agent 正確率和執行次數的分佈;右圖是預測分佈,研究者對錯誤型別進行了細緻的劃分,包括超過給定的最大執行次數 K,拒答或定位錯誤(沒有找到正確的頁面就進行了回答)以及推理錯誤(這裡指找到了正確的頁面但是仍回答錯誤)。

綜合來看,在 ReAct 框架下,引數相對較小的模型由於缺乏深入挖掘資訊的能力,無論是否找到了相關資訊,在進行幾次操作迭代後便開始進行回答判斷,常常表現出「擺爛」或者不耐煩的特性。透過引入記憶機制來管理長上下文,或者隨著模型引數的增強這種現象有所緩解,說明這種現象源於長上下文中噪聲資訊的干擾以及模型自身能力的侷限性。
圖片
在 RAG 系統上的效能

另一種設定是直接端到端測試 RAG 系統下 QA 的效能,研究者分別測試了在 Close Book 和一些開源、商用 RAG 系統上的效能。結果顯示,Close Book 在 WebWalkerQA 上結果很差,因為研究者收集頁面資訊具有高度的時效性。

同樣地,WebWalkerQA 需要搜尋引擎搜到比較深的頁面內容,或者需要拆解 Query 進行搜尋,這給 RAG 系統帶來了挑戰,最好的結果也是 40 左右。
圖片
二維 RAG 的探索

值得注意的是,WebWalker 中的 memory 對於回答 query 是非常重要的。如果 rag 鏈路中的搜尋引擎可以當作對 query 進行橫向搜尋,WebWalker 是對頁面的縱向深度探索,這是完全可以互補的。

因此,如果把 WebWalker 中的 memory 拼接到 rag 鏈路上,這種橫向和縱向整合表現出色,在所有類別和難度的資料集上效果均有提升,證明了垂直探索頁面對於提升 RAG 效能的潛力。這是對 RAG 二維探索的首次嘗試

此外,研究者對 WebWalker 的挖掘點選次數進行 scale up,看是否能得到更好、更多的 memory 資訊。隨著挖掘點選次數的增大,不僅在 WebWalker 上有較大提升,把 memory 加入到 rag 系統之後,效能也隨之提升。這給 rag 系統進行 test-time 的擴充提供了新的角度。
圖片
突出 Insight
  • 網頁導航尋找資訊仍比較困難:在需要規劃和推理的任務中,網頁導航任務仍需進行進一步的研究和探索。

  • 結合 RAG 有效:RAG 與 WebWalker 的結合,在資訊檢索問答任務中展現出強大效果。這種協同作用不僅提升了資訊檢索的效率,還為處理複雜任務提供了強大的支援。Agentic 的二維 RAG 會很有幫助。

  • 垂直探索有潛力:頁面的垂直探索為 RAG 系統 test-time 的擴充套件提供了新思路。突破迭代搜尋的正規化,對頁面進行垂直探索。

總之,WebWalkerQA 和 WebWalker 的出現,為大模型在複雜、多步驟資訊檢索任務中的網頁遍歷能力評估提供了新標準和工具。它們強調了網頁資訊獲取任務中深度、垂直探索的重要性,是可能一直 Agentic RAG 的新方向

侷限與改進方向
  • 資料規模:目前 WebWalkerQA 僅包含 680 個高質量問答對,規模有限,還有擴充空間。

  • 多模態擴充:目前僅基於 HTML-DOM 解析,未來可結合視覺模態如截圖,提供更直觀的互動體驗。

  • Agent 微調:WebWalker 目前僅靠提示驅動,後續可透過精細調優,讓大模型更好地掌握網頁瀏覽技巧。

  • Momory 與 rag 結合:目前是給定了 webwalker 頁面進行了挖掘,如果想與 rag 鏈路進行更好的結合,可以對 query 進行改寫到官網定位,再進行挖掘,把 memory 和正常檢索到的知識一起作為檢索增強的知識,這樣結合更自然。

相關文章