2025 被稱為 Agent 元年,新年伊始,ByteDance Research 就推出了一款基於強化學習的智慧體應用:論文檢索智慧體。它可以模仿人類研究者呼叫搜尋引擎、看論文、查參考文獻。繁瑣冗長的論文調研,現在,只需要兩分鐘。 從事科研工作的你,想要一個幫你盡調論文的科研小助手嗎?
你是否曾為了尋找某個研究主題的相關論文,花費了大量的時間與精力;或者對某個研究想法充滿興趣,卻不確定是否已有類似的研究,最終耗費了大量時間在調研上?最近,ByteDance Research 的研究團隊推出了一款強大的學術論文檢索工具 ——PaSa。使用者只需提出關注的學術問題,PaSa 即可自動呼叫搜尋引擎,瀏覽相關論文並追蹤引文網路,精準、全面地為使用者呈現所有相關的學術論文,只需要兩分鐘,就可以完成一次詳盡的學術調研。 先來看看 PaSa 的效果:
研究人員將 PaSa 與一系列主流檢索工具進行了對比,包括 Google, Google Scholar, Google+GPT-4o, ChatGPT(配備檢索能力的 GPT-4o), GPT-o1 以及 PaSa-GPT-4o。在學術 Query 測試集上,PaSa 大幅超越了當前主流檢索工具:與 Google 相比,PaSa-7b 在 Recall@20 和 Recall@50 上分別提升了 37.78% 和 39.90%。與基於 Prompt Engineering 實現的 PaSa-GPT-4o 相比,經過強化學習訓練的 PaSa-7b 在召回率上提升了 30.36%,準確率上提升了 4.25%.。 PaSa 目前已開放試用。同時,研究團隊公開了詳盡的技術論文,並一次性開源了全部的資料、程式碼和模型:
論文地址:https://arxiv.org/abs/2501.10120
專案倉庫:https://github.com/bytedance/pasa
PaSa 主頁:https://pasa-agent.ai
PaSa Agent 框架 PaSa 的核心元件包含兩個 LLM Agents:Crawler 和 Selector。Crawler 透過自主呼叫搜尋工具、閱讀論文、擴充套件參考文獻,不斷收集與使用者 Query 可能相關的學術論文。Selector 則負責精讀 Crawler 找到的每一篇論文,決定其是否滿足使用者的需求。
PaSa 框架:Crawler 的設計旨在最大化相關論文的召回率,而 Selector 則強調精確性,即識別論文是否符合使用者需求。 下圖展示了一個 PaSa 處理 User Query 的具體流程: