不僅有主持人,還能得到不同AI專家的解答。
今年 4 月,史丹佛大學推出了一款利用大語言模型(LLM)輔助編寫類維基百科文章的神器。它就是開源的 STORM,可以在三分鐘左右將你輸入的主題轉換為長篇文章或者研究論文,並能夠以 PDF 格式直接下載。
具體來講,STORM 在 LLM 的協助下,透過檢索、多角度提問和模擬專家對話等方式,在整理收集到的資訊基礎上生成寫作大綱,並最終形成一份詳細、深入和準確的內容報告。STORM 尤其擅長需要大量研究和引用的寫作任務。更難得的是,使用者可以直接在 STORM 的網站免費體驗。
此後,STORM 不斷推出新的功能和服務,在 GitHub 上的 Star 量已經超過了 12k。
GitHub 地址:https://github.com/stanford-oval/storm
就在最近,該團隊又推出全新功能 ——Co-STORM。與 STORM 的區別在於,它引入了協作對話機制,並採用輪次管理策略,實現流暢的協作式 AI 學術研究。功能包括如下:
Co-STORM LLM 專家:這種型別的智慧體會根據外部知識來源生成答案並能根據對話歷史提出後續問題。
主持人(Moderator):該智慧體會根據檢索器發現但未在前幾輪直接使用的資訊生成發人深省的問題。當然,問題生成也可以基於事實。
人類使用者:人類使用者將主動觀察對話以更深入地瞭解主題,或者透過注入對話來引導討論焦點,積極參與對話。
Co-STORM 的介面是下面這樣的。
體驗地址:https://storm.genie.stanford.edu/
我們讓 Co-STORM 就戰爭與和平(war and peace)主題來生成一篇文章,大約需要三分鐘。
在生成文章之後,我們可以看到,主持人提出問題,並得到基本資訊提供者、文學教授、紀錄片導演等不同 AI 智慧體的回覆,然後開啟新一輪次的提問。
此外,Co-STORM 的相關論文已被 EMNLP 2024 主會議收錄。
論文地址:https://www.arxiv.org/pdf/2408.15232
執行原理概覽
下圖為 Co-STORM 框架。整體而言,Co-STORM 模擬使用者、觀點引導專家和主持人之間的協作對話。
執行原理如下所示:首先維護動態更新的思維導圖(3.2),從而幫助使用者跟蹤和參與對話(3.3)。
在 3.4,提示模擬專家根據對話歷史來確定對話意圖,並生成基於網際網路的問題或答案。
在 3.5,提示模擬主持人利用未使用的資訊和思維導圖生成新問題,從而自動引導對話。
最後,思維導圖可用來生成完整的引用報告以作為總結。
評估結果
自動評估可以實現可擴充套件測試,並允許對使用者行為進行一致的模擬。
研究者將 Co-STORM 與以下基線進行比較:(1)RAG Chatbot,該基線從搜尋引擎檢索資訊並透過一問一答正規化與使用者互動;(2)STORM + QA,該基線使用 STORM 框架為給定主題生成報告以提供基本資訊。
下表 3 展示了報告質量和對話中問答輪次質量的評估結果。問答輪次和最終報告是人類與 Co-STORM 互動時學習的主要來源。STORM + QA 在研究給定主題時考慮了多種觀點,與 RAG Chatbot 相比,確實提高了報告質量所有四個評分維度的表現。
同樣,Co-STORM 的表現優於 RAG Chatbot,特別是在深度和新穎性方面,它透過模擬具有多個智慧體角色的協作對話,類似於圓桌討論。就對話質量而言,Co-STORM 中的問答輪次在一致性和參與度方面明顯優於兩個基線。
Co-STORM 的一個關鍵特性是 LM 智慧體可以代表使用者提問。如下圖 3 所示,在檢查提問輪次時,Co-STORM 多智慧體設計的優勢變得更加明顯,只需要一位專家和一位主持人就可以極大地獲益。
重要的是,CoSTORM 中的主持人角色會根據有關主題的未使用資訊提出問題。這樣的角色代表擁有更多已知未知(known unknowns)的人,有效地引導對話,幫助使用者在未知未知(unknown unknowns)空間中發現更多資訊。
下表 4 為人工評分結果,圖 4 為成對比較結果。可以得出結論,CoSTORM 可以幫助使用者找到與其目標相關的更廣泛、更深層次的資訊。
更多技術細節和評估結果請參考原論文。