2分鐘完成論文調研!ByteDance Research推出論文檢索智慧體PaSa,遠超主流檢索工具

机器之心發表於2025-01-23
2025 被稱為 Agent 元年,新年伊始,ByteDance Research 就推出了一款基於強化學習的智慧體應用:論文檢索智慧體。它可以模仿人類研究者呼叫搜尋引擎、看論文、查參考文獻。繁瑣冗長的論文調研,現在,只需要兩分鐘。

從事科研工作的你,想要一個幫你盡調論文的科研小助手嗎?

圖片

你是否曾為了尋找某個研究主題的相關論文,花費了大量的時間與精力;或者對某個研究想法充滿興趣,卻不確定是否已有類似的研究,最終耗費了大量時間在調研上?最近,ByteDance Research 的研究團隊推出了一款強大的學術論文檢索工具 ——PaSa。使用者只需提出關注的學術問題,PaSa 即可自動呼叫搜尋引擎,瀏覽相關論文並追蹤引文網路,精準、全面地為使用者呈現所有相關的學術論文,只需要兩分鐘,就可以完成一次詳盡的學術調研。

先來看看 PaSa 的效果:

圖片

圖片

圖片

研究人員將 PaSa 與一系列主流檢索工具進行了對比,包括 Google, Google Scholar, Google+GPT-4o, ChatGPT(配備檢索能力的 GPT-4o), GPT-o1 以及 PaSa-GPT-4o。在學術 Query 測試集上,PaSa 大幅超越了當前主流檢索工具:與 Google 相比,PaSa-7b 在 Recall@20 和 Recall@50 上分別提升了 37.78% 和 39.90%。與基於 Prompt Engineering 實現的 PaSa-GPT-4o 相比,經過強化學習訓練的 PaSa-7b 在召回率上提升了 30.36%,準確率上提升了 4.25%.。

PaSa 目前已開放試用。同時,研究團隊公開了詳盡的技術論文,並一次性開源了全部的資料、程式碼和模型

圖片

  • 論文地址:https://arxiv.org/abs/2501.10120
  • 專案倉庫:https://github.com/bytedance/pasa
  • PaSa 主頁:https://pasa-agent.ai

PaSa Agent 框架

PaSa 的核心元件包含兩個 LLM Agents:Crawler 和 Selector。Crawler 透過自主呼叫搜尋工具、閱讀論文、擴充套件參考文獻,不斷收集與使用者 Query 可能相關的學術論文。Selector 則負責精讀 Crawler 找到的每一篇論文,決定其是否滿足使用者的需求。

圖片

PaSa 框架:Crawler 的設計旨在最大化相關論文的召回率,而 Selector 則強調精確性,即識別論文是否符合使用者需求。

下圖展示了一個 PaSa 處理 User Query 的具體流程:

圖片

PaSa 的工作流示例:Crawler 可以生成多樣、互補的搜尋詞執行多次搜尋。此外,Crawler 還能夠評估其行為的長期價值,例如在多步擴充套件引文網路後,Cralwer 能夠發現許多與使用者 Query 相關的論文,即使路徑中的中間論文並不直接與使用者需求匹配。

訓練最佳化

為了訓練 PaSa,研究團隊首先構造了一個高質量的學術細粒度 Query 資料集:AutoScholarQuery。該資料集透過收集人工智慧領域頂會(ICLR 2023,ICML 2023,NeurIPS 2023,ACL 2024,CVPR 2024)發表的論文,基於每篇論文中 “Related Work” 部分的描述及其引用的相關文獻,生成學術問題和對應的相關論文列表。最終,資料集包含了 36k 資料,每條資料包含一個 AI 領域的學術問題及相關論文,示例如下圖所示。

圖片

AutoScholarQuery 中的資料示例

儘管 AutoScholarQuery 缺乏人類科學家發現論文的軌跡資料,但該資料集仍然能夠支援對 PaSa 智慧體進行強化學習訓練。在 Crawler 的訓練過程中,面臨兩個主要挑戰:獎勵稀疏性和過長的行動軌跡。為了解決獎勵稀疏性問題,研究團隊引入了 Selector 作為輔助獎勵模型,顯著提升了最佳化效果。此外,Crawler 在一次執行中可能收集到上百篇文章,導致完整的行動軌跡過長,無法完全輸入到 LLM 的上下文中。為此,團隊提出了一種全新的 session-level PPO 演算法,解決這一問題。

Selector 主要透過模仿學習進行訓練。Selector 會先生成一個 Decision Token,決定論文是否符合使用者 Query 的需要。同時 Token Probability 也可以作為相關性分數用於最終結果的排序。在 Decision Token 後,Selector 還會輸出決策依據。

Crawler 和 Selector 的更多訓練細節詳見論文。

實驗結果

為了驗證 PaSa 在真實學術搜尋場景中的表現,研究團隊開發了一個評測集 ——RealScholarQuery。該資料集包含了 AI 研究者提出的真實學術問題,併為每個問題人工構建了對應的相關論文列表。研究團隊在 AutoScholarQuery-test 和 RealScholarQuery 兩個評測集上,全面對比了 PaSa 與 baselines 的表現。

Baselines

  • Google:直接用 Google 搜尋使用者問題
  • Google Scholar:直接用 Google Scholar 搜尋使用者問題
  • Google with GPT-4o:首先 prompt GPT-4o 改寫使用者問題生成一個更適於 Google 搜尋的問題,然後使用 Google 進行搜尋
  • ChatGPT:上傳使用者問題給有搜尋功能的 GPT-4o,並收集它的生成結果
  • GPT-o1:直接 prompt GPT-o1 來處理使用者問題
  • PaSa-GPT-4o:透過 prompt GPT-4o 模擬 Crawler 和 Selector,構成 PaSa 架構 agent

PaSa

  • PaSa-7b:使用 Qwen2.5-7b-Instruct 作為基礎模型,透過特殊獎勵構造的強化學習訓練的 Crawler 和 Selector 構成的 agent
  • PaSa-7b-ensemble:整合多次 Crawler 的搜尋結果,提高最終的召回量

圖片

在 AutoScholarQuery 測試集上,PaSa-7b 的效果優於其他所有的基線模型。與最強的基線 PaSa-GPT-4o 相比,在準確率相當的情況下,PaSa-7b 的召回率提高了 9.64%,Crawler 召回率提高了 3.66%。和 Google 搜尋的最好結果相比,Recall@20,Recall@50 和 Recall@100 分別提升了 33.80%,38.83% 和 42.64%。此外,整合後的 PaSa-7b-ensemble 比 PaSa-7b 的召回率和 Crawler 召回率能進一步提高 1.51% 和 3.44%。

在更接近真實的 RealScholarQuery 上,PaSa-7b 的提升更加明顯。與 PaSa-GPT-4o 相比,PaSa-7b 的召回率提高了 30.36%,精確率提高了 4.25%。Google 搜尋的最好結果相比,Recall@20,Recall@50 和 Recall@100 分別提升了 37.78%,39.90% 和 39.83%。PaSa-7b-ensemble 的召回率和 Crawler 召回率分別進一步提高了 3.52% 和 4.32%。

結語

學術搜尋是一個具有獨特挑戰的資訊檢索場景:涉及大量專業性較強的長尾知識,要求全面的召回能力,並能夠支援細粒度的查詢。PaSa 是基於大語言模型的全新論文檢索智慧體,透過模仿人類的搜尋工具呼叫、論文閱讀以及參考文獻查閱過程,能夠自主高效地完成論文調研這一複雜的工作。

相關文章