AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文標題:WebWalker: Benchmarking LLMs in Web Traversal
論文地址:https://arxiv.org/pdf/2501.07572
Homepage 地址:
https://alibaba-nlp.github.io/WebWalker/
Modelscope Demo 地址:
https://www.modelscope.cn/studios/jialongwu/WebWalker
Huggingface Demo 地址:
https://huggingface.co/spaces/callanwu/WebWalker
Dataset 地址:
https://huggingface.co/datasets/callanwu/WebWalkerQA
Leaderboard 地址: https://huggingface.co/spaces/callanwu/WebWalkerQALeadeboard
Github 地址:
https://github.com/Alibaba-NLP/WebWalker
網頁導航尋找資訊仍比較困難:在需要規劃和推理的任務中,網頁導航任務仍需進行進一步的研究和探索。
結合 RAG 有效:RAG 與 WebWalker 的結合,在資訊檢索問答任務中展現出強大效果。這種協同作用不僅提升了資訊檢索的效率,還為處理複雜任務提供了強大的支援。Agentic 的二維 RAG 會很有幫助。
垂直探索有潛力:頁面的垂直探索為 RAG 系統 test-time 的擴充套件提供了新思路。突破迭代搜尋的正規化,對頁面進行垂直探索。
資料規模:目前 WebWalkerQA 僅包含 680 個高質量問答對,規模有限,還有擴充空間。
多模態擴充:目前僅基於 HTML-DOM 解析,未來可結合視覺模態如截圖,提供更直觀的互動體驗。
Agent 微調:WebWalker 目前僅靠提示驅動,後續可透過精細調優,讓大模型更好地掌握網頁瀏覽技巧。
Momory 與 rag 結合:目前是給定了 webwalker 頁面進行了挖掘,如果想與 rag 鏈路進行更好的結合,可以對 query 進行改寫到官網定位,再進行挖掘,把 memory 和正常檢索到的知識一起作為檢索增強的知識,這樣結合更自然。