STORM:史丹佛開發創新型寫作系統(翻譯)

ryan-Z發表於2024-04-13

使用大型語言模型協助從頭開始編寫類似維基百科的文章

這篇文件是一篇關於如何利用大型語言模型(LLMs)來撰寫長篇、有根據且組織良好的文章的研究論文,這些文章在廣度和深度上與維基百科頁面相當。這個問題尚未被充分探索,在寫作前的階段提出了新的挑戰,包括如何在寫作前研究主題並準備概要。我們提出了一個名為STORM的寫作系統,全稱為“**透過檢索和多視角提問合成主題概要**”(Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking)。
STORM透過以下方式模擬寫作前階段:
    (1)在研究給定主題時發現多樣化的視角;
    (2)模擬對話,其中攜帶不同視角的作家向基於網際網路信任來源的主題專家提問;
    (3)策劃收集到的資訊以建立概要。
為了評估,我們策劃了一個名為FreshWiki的資料集,該資料集包含最近的高質量維基百科文章,並制定了概要評估標準來評估寫作前階段。我們還從經驗豐富的維基百科編輯那裡收集反饋。與基於概要的檢索增強型基線生成的文章相比,STORM的文章在組織性(絕對增加了25%)和覆蓋廣度(增加了10%)方面更受認可。專家反饋還幫助識別了生成有根據的長篇文章的新挑戰,例如來源偏見轉移和無關事實的過度關聯。

1 引言
大型語言模型(LLMs)已經展示了令人印象深刻的寫作能力,但我們如何利用它們來撰寫有根據的長篇文章,如完整的維基百科頁面,尚不清楚。這種說明性寫作旨在以有組織的方式向讀者傳達有關特定主題的資訊,需要在寫作前階段進行徹底的研究和規劃。然而,關於生成維基百科文章的先前工作通常繞過了寫作前階段:例如,Liu等人假設參考文件是提前提供的,而Fan和Gardent假設文章概要是可用的,並專注於擴充套件每個部分。這些假設在一般情況下並不成立,因為收集參考資料和製作概要需要高階的資訊素養技能,這對經驗豐富的作家來說也是一個挑戰。自動化這個過程可以促進個人深入瞭解特定主題,並大大減少他們的說明性寫作所需的昂貴專家時間。我們透過專注於如何從頭開始生成類似維基百科的文章來探索這些挑戰。我們將這個問題分解為兩個任務。第一個任務是進行研究以生成概要,即多級部分列表,並收集一組參考文件。第二個任務使用概要和參考資料來生成全長文章。這樣的任務分解反映了人類寫作過程,通常包括寫作前、起草和修訂階段。由於預訓練的語言模型本質上具有豐富的知識,直接方法依賴於它們的引數知識來生成概要甚至整篇文章。然而,這種方法受到細節缺乏和幻覺的限制,特別是在處理長尾主題時。這強調了利用外部來源的重要性,當前的策略通常涉及檢索增強生成(RAG),這又回到了寫作前階段研究主題的問題,因為很多資訊不能透過簡單的主題搜尋浮現出來。人類學習理論強調在資訊獲取中提出有效問題的重要性。儘管指令調整的模型可以直接提示生成問題,但我們發現它們通常產生基本的“什麼”,“何時”和“在哪裡”問題,這些問題通常只涉及主題的表面級事實。為了賦予LLMs進行更好研究的能力,我們提出了STORM正規化,用於透過檢索和多視角提問合成主題概要。
STORM的設計基於兩個假設:
(1)多樣化的視角導致不同的問題;
(2)制定深入的問題需要迭代研究。基於這些假設,STORM採用了一種新穎的多階段方法。它首先透過檢索和分析類似主題的維基百科文章來發現多樣化的視角,然後將LLM擬人化,用特定的視角提問(圖1(B))。
接下來,為了引出用於迭代研究的後續問題(圖1(C)),STORM模擬了多輪對話,其中生成問題的答案基於網際網路。最後,基於LLM的內在知識和收集的資訊,STORM建立了一個可以逐節擴充套件以發展成為全長類似維基百科文章的概要。我們使用我們的FreshWiki資料集(§2.1)評估STORM,該資料集策劃了最近的高質量維基百科文章,以避免預訓練期間的資料洩露。為了便於研究寫作前階段,我們定義了評估概要質量的指標,並邀請了一組經驗豐富的維基百科編輯進行專家評估。編輯發現STORM在文章的廣度和組織方面優於基於概要的RAG基線。他們還確定了未來研究的挑戰,包括處理以下情況:(1)網際網路上的偏見影響生成的文章;(2)LLMs在無關事實之間製造聯絡。這些挑戰為有根據的寫作系統提出了新的前沿。我們的主要貢獻包括:
• 為了評估LLM系統從頭開始生成長篇文章的能力,特別是寫作前階段的挑戰,我們策劃了FreshWiki資料集,並建立了評估概要和最終文章質量的標準。
• 我們提出了STORM,這是一個新穎的系統,透過使用LLMs提出深入的問題並從網際網路檢索可信資訊來自動化寫作前階段。
• 自動和人類評估都證明了我們方法的有效性。專家反饋進一步揭示了生成有根據的長篇文章的新挑戰。

2 FreshWiki
我們研究從頭開始生成類似維基百科的文章,重點關注寫作前階段,這涉及到收集和策劃相關資訊(“研究”)的艱鉅子任務。這模擬了人類的寫作方法,已經促使一些教育工作者將維基百科文章寫作視為學術培訓的教育練習。表1將我們的工作與現有的維基百科生成基準進行了比較。現有的工作通常專注於評估較短片段(例如,一段)的生成,範圍較窄(例如,特定領域或兩個),或者在提供明確的概要或參考文件時。一個顯著的例子是WikiSum,它將生成維基百科文章視為多文件摘要問題,關於參考文件。我們的設定強調了長篇有根據寫作系統研究和策劃內容的能力。具體來說,給定主題t,任務是找到一組參考文件R,並生成全長文章S = s1s2...sn,其中每個句子si引用了R中的文件列表。

2.1 FreshWiki資料集
建立新的維基百科式文章不僅需要流暢的寫作,還需要良好的研究技能。由於現代LLMs通常是在維基百科文字上訓練的,我們透過明確尋找在我們測試的LLMs訓練截止日期之後建立(或重大編輯)的最近的維基百科文章來減輕資料洩露。我們的流程可以在未來的日期重複,當新的LLMs出現時。為了應用我們的日期標準,我們專注於基於編輯次數的每月前100個最多編輯的頁面,從2022年2月到2023年9月。為了確保高質量的參考,我們過濾這些文章,只保留那些被ORES評估為B級或更高質量的文章。我們還排除了列表文章和沒有子部分的文章。雖然高質量的維基百科文章通常包含結構化資料(例如,表格)並且是多模態的,我們只考慮純文字部分來構建資料集,以簡化我們的任務。資料集的更多細節在附錄A中。

2.2 概要建立和評估
全長文章很難生成或評估。當人類教育工作者教授學生學術寫作時,他們有時會在概要階段監督學生,因為廣泛的概要表明對主題有全面的瞭解,併為撰寫全長文章提供了堅實的基礎。受此啟發,我們將S的生成分解為兩個階段。在寫作前階段,我們要求系統建立一個概要O,定義為多級部分標題的列表。在寫作階段,系統使用主題t、參考R和概要O來生成全長文章S。為了評估概要覆蓋範圍,我們引入了兩個指標:標題軟召回和標題實體召回。這些指標比較人類編寫文章的多級部分標題(視為真實情況)和O中的標題。認識到這兩組標題元素之間的精確匹配是不必要的,我們使用Sentence-BERT嵌入的餘弦相似度計算標題軟召回(Fränti和MariescuIstodor,2023)(詳細資訊在附錄C.1中)。我們還計算標題實體召回,它量化為人類編寫文章標題中的命名實體被O覆蓋的百分比。我們使用FLAIR命名實體識別(NER)(Akbik等,2019)提取實體。

3 方法
我們提出了STORM,透過有效的問題提問(§3.1,§3.2)研究給定主題並建立概要(§3.3)。概要將擴充套件到基於收集的參考資料的全長文章(§3.4)。圖2給出了STORM的概述,我們在附錄B中包括了虛擬碼。

3.1 視角引導的問題提問
Rohman(1965)將寫作前階段定義為寫作過程中的發現階段。與商業中的股東理論(Freeman等,2010)類似,不同的股東會優先考慮公司的各個方面,具有不同視角的個體在研究同一主題時可能會集中關注不同的方面,並發現多方面的資訊。此外,特定的視角可以作為先驗知識,引導個體提出更深入的問題。例如,活動策劃者可能會詢問“2022年冬奧會開幕式”的“交通安排”和“預算”,而普通人可能會提出關於活動基本資訊的更一般的問題(圖1(A))。給定輸入主題t,STORM透過調查類似主題的現有文章來發現不同的視角,並使用這些視角來控制問題提問過程。具體來說,STORM提示LLM生成相關主題列表,然後提取其對應維基百科文章的目錄(如果這些文章可以透過維基百科API獲得)(圖2 1)。這些目錄被連線起來建立一個上下文,以提示LLM識別N個視角P = {p1, ..., pN},這些視角可以共同為t上的文章做出全面的貢獻(圖2)。為了確保關於t的基本資訊也被覆蓋,我們將“專注於廣泛涵蓋主題基本資訊的基本事實作家”p0新增到P中。每個視角p ∈ P將被用來引導LLM在並行過程中提問。

3.2 模擬對話
問題和提問理論(Ram,1991)強調,雖然現有問題的答案有助於更全面地理解主題,但它們通常同時引發新問題。為了啟動這個動態過程,STORM模擬了一個維基百科作家和主題專家之間的對話。在第i輪對話中,由LLM驅動的維基百科作家基於主題t、分配的視角p ∈ P和對話歷史{q1, a1, ..., qi−1, ai−1}(其中aj表示模擬專家的回答)生成一個單一的問題qi。對話歷史使LLM能夠更新對主題的理解並提出後續問題。在實踐中,我們將對話限制為最多M輪。為了確保對話歷史提供事實資訊,我們使用網際網路上的信任來源來支援每個查詢qi的答案ai。由於qi可能很複雜,我們首先提示LLM將qi分解為一組搜尋查詢(圖2 4),然後根據維基百科指南使用基於規則的過濾器評估搜尋結果,以排除不可信的來源(圖2 5)。最後,LLM綜合可信來源生成答案ai,並將這些來源新增到R中,用於全文文章生成(§3.4)。

3.3 建立文章概要
透過N + 1次模擬對話(表示為{C0, C1, ..., CN})徹底研究主題後,STORM在實際寫作開始之前建立一個概要。為了充分利用LLM的內在知識,我們首先提示模型僅根據主題t生成一個草稿概要OD(圖2 7)。OD通常提供一個一般但有組織的框架。隨後,LLM被提示使用主題t、草稿概要OD和模擬對話{C0, C1, ..., CN}來完善概要(圖2 8)。這產生了一個改進的概要O,將用於生成全長文章。

3.4 撰寫全長文章
基於在寫作前階段收集的參考資料R和開發的概要O,可以逐節撰寫全長文章。由於通常不可能將整個R放入LLM的上下文視窗中,我們使用LLM的節標題和所有級別子節的標題來根據從Sentence-BERT嵌入計算出的語義相似度從R中檢索相關文件。有了相關資訊,LLM被提示生成帶有引用的節。一旦所有節都生成完畢,它們就被連線起來形成全長文章。由於節是並行生成的,我們提示LLM刪除重複的資訊以提高連貫性。此外,根據維基百科的風格規範,LLM還被用於合成整篇文章的摘要,形成開頭的引言部分。

4 實驗
4.1 文章選擇
STORM能夠研究複雜的主題,並根據詳細概要撰寫長篇文章。然而,在這個受控實驗中,我們將最終輸出限制在最多4000個標記(大約3000個單詞)。為了進行有意義的比較,我們從FreshWiki資料集中隨機選擇100個樣本(見§2.1),這些樣本的人類編寫文章不超過3000個單詞。

4.2 自動指標
如§2.2所討論的,我們透過計算標題軟召回和標題實體召回來評估概要質量,以評估寫作前階段。更高的召回分數表示與人類編寫文章相比更全面的概要。為了評估全長文章的質量,我們採用ROUGE分數(Lin,2004),並在文章級別上計算基於FLAIR NER結果的實體召回。此外,根據維基百科標準,我們從(1)興趣水平,(2)連貫性和組織,(3)相關性和聚焦,(4)覆蓋範圍和(5)可驗證性方面評估文章。對於方面(1)-(4),我們使用Prometheus(Kim等,2023),一個13B評估器LLM,根據與兩位經驗豐富的維基百科編輯共同開發的5分評分標準對文章進行評分(見附錄C.2)。對於可驗證性,我們根據Gao等人(2023)的定義計算引用召回和引用精度。我們使用Mistral 7BInstruct(Jiang等,2023a)檢查引用段落是否蘊含生成的句子。

4.3 基線
由於先前的工作使用不同的設定並且不使用LLMs,因此很難直接比較。相反,我們使用以下三個基於LLM的基線。

直接生成,一個基線,直接提示LLM生成概要,然後用於生成全長文章。
RAG,一個檢索增強生成基線,使用主題進行搜尋,並使用搜尋結果與主題t一起生成概要或整篇文章。
概要驅動的RAG(oRAG),在概要建立方面與RAG相同,但進一步使用節標題搜尋額外資訊以逐節生成文章。

4.4 STORM實現
我們使用DSPy框架(Khattab等,2023)進行零次提示構建STORM。附錄B包括虛擬碼和相應的提示。STORM中的超引數N和M都設定為5。我們使用聊天模型gpt-3.5-turbo進行問題提問,並使用gpt-3.5-turbo-instruct進行STORM的其他部分。我們還嘗試使用gpt-4來起草和完善概要(圖2 7-8)。對於報告的結果,STORM中的模擬主題專家基於You.com搜尋API,儘管所提出的管道與其他搜尋引擎相容。從搜尋結果中排除了真實的維基百科文章。對於最終文章生成,我們只報告使用gpt-4的結果,因為gpt-3.5在生成帶有引用的文字時對來源不忠實(Gao等,2023)。我們為所有實驗設定溫度為1.0,top_p為0.9。

5 結果與分析
5.1 主要結果
我們使用概要覆蓋作為評估寫作前階段的代理(見§2.2)。表3顯示了標題軟召回和實體召回。直接由LLMs生成的概要(直接生成)已經展示了高標題軟召回,表明LLMs透過其豐富的引數知識能夠把握主題的高階方面。然而,透過提出有效問題來研究主題的STORM可以建立更高召回的概要,涵蓋更多特定於主題的方面。值得注意的是,儘管RAG利用了額外的資訊,但在上下文視窗中呈現未組織的資訊使得較弱的模型(即,GPT-3.5)更難生成概要。為了測試RAG基線的極限,我們進一步擴充套件了檢索到的來源,從RAG生成的概要開始,使用其節標題作為搜尋查詢收集更多來源,並將新收集的來源與初始概要一起輸入LLM以生成一個打磨過的概要。這種修改後的方法在表3中稱為“RAG-expand”。實驗結果表明,儘管額外的搜尋和改進輪次可以提高RAG生成的概要,但我們提出的STORM仍然超過了它的效能。

我們進一步評估了全長文章的質量。如表2所示,oRAG顯著優於RAG,突出了使用概要結構化全長文章生成的有效性。儘管這種方法在利用檢索和概要方面具有優勢,但我們的方法仍然優於它。有效的問題提問機制透過更高的實體召回增強了文章。評估LLM還對這些文章的“興趣水平”,“相關性和聚焦”以及“覆蓋範圍”方面給出了顯著更高的評分。儘管如此,我們承認評估LLM可能過高評價機器生成的文字。我們仔細的人類評估(§6)揭示了STORM仍然有很大的改進空間。

儘管這項工作主要關注寫作前階段,並沒有最佳化生成帶有引用的文字,我們仍然檢查了我們方法生成的文章的引用質量。如表4所示,Mistral 7B-Instruct判斷84.83%的句子得到了引用的支援。附錄C.3研究了不支援的句子,揭示了主要問題源於不當的推理和不準確的釋義,而不是幻想不存在的內容。

5.2 消融研究
如§3所介紹,STORM透過發現特定視角和模擬多輪對話來提示LLMs提出有效問題。我們透過比較STORM與兩個變體進行消融研究:(1)“沒有視角的STORM”,省略了問題生成提示中的視角;(2)“沒有對話的STORM”,一次性提示LLMs生成一定數量的問題。為了確保公平比較,我們控制所有變體生成的總問題數量相等。表3顯示了消融結果,完整的STORM管道產生了具有最高召回的概要。此外,“沒有對話的STORM”給出了更差的結果,表明閱讀相關資訊對於生成有效問題是至關重要的。我們進一步檢查了透過不同變體收集到的R中獨特來源的平均數量。如表5所示,完整的管道發現了更多的不同來源,趨勢與自動指標的概要質量相符。我們還驗證了在STORM中是否有一個概要階段是必要的。在表2中,“沒有概要階段的STORM”表示在給定主題和模擬對話的情況下生成整篇文章的結果。去除概要階段顯著惡化了所有指標的效能。

6 人類評估
為了更好地理解STORM的優勢和劣勢,我們與10位經驗豐富的維基百科編輯合作進行了人類評估,這些編輯在維基百科上至少進行了500次編輯,並且擁有超過1年的經驗。我們從我們的資料集中隨機抽取20個主題,並評估我們的方法和根據自動評估最好的基線oRAG生成的文章。每對文章分配給2位編輯。我們要求編輯從§4.2定義的五個方面對每篇文章進行評判,但使用1到7的評分標準進行更細緻的評估。雖然我們的自動評估使用引用質量作為評估可驗證性的代理,但我們在人類評估中堅持維基百科的“可驗證,無原始研究”標準。除了對文章進行評分外,編輯還被要求提供開放式反饋和成對偏好。在評估結束後,他們被進一步要求將我們方法生成的文章與他們剛剛審查的人類編寫的文章進行比較,並使用1-5的Likert量表報告他們對STORM的感知有用性。更多人類評估細節包含在附錄D中。表6呈現了評分和成對比較結果。

STORM生成的文章在廣度和深度上都優於oRAG輸出。與§5.1中的發現一致,編輯們認為STORM生成的文章比oRAG輸出更有趣、更有組織,並且覆蓋範圍更廣。具體來說,25%的STORM生成的文章被認為是有組織的(組織評分≥4),10%的被認為是良好覆蓋(覆蓋評分≥4)。即使與人類編寫的文章相比,一位編輯稱讚我們的結果提供了“稍微更多的背景資訊”,另一位指出“我發現AI文章與維基百科文章相比,深度更大”。STORM還在成對比較中勝過最佳基線。更多資訊在|R|中提出了挑戰,超出了事實性幻覺。我們檢查了14個成對比較響應,其中編輯更喜歡oRAG輸出而不是STORM。排除3個成對偏好與評分不一致的情況,編輯在超過50%的案例中為我們的方法生成的文章分配了較低的可驗證性分數。透過分析文章和編輯的自由形式反饋,我們發現低可驗證性分數源於紅鯡魚謬誤或過度推測問題。當生成的文章在|R|中引入不可驗證的連線,或者在資訊與主題之間引入不可驗證的連線時,就會出現這些問題(示例包含在表11中)。與廣泛討論的事實性幻覺相比,解決這種可驗證性問題更為微妙,超越了基本的事實核查。生成的文章落後於經過良好修訂的人類作品。儘管STORM勝過oRAG基線,但編輯們評論說,生成的文章比實際的維基百科頁面資訊量少。另一個主要問題是,從網際網路來源到生成文章的偏見和語氣轉移,有7位編輯提到STORM生成的文章聽起來“情緒化”或“不中立”。更多的分析在附錄E中討論。這個反饋表明,減少寫作前階段的檢索偏見是未來工作的一個值得考慮的方向。生成的文章是一個很好的起點。如圖3所示,編輯們一致認為STORM可以協助他們進行寫作前階段。很高興知道這個工具對經驗豐富的編輯有幫助。80%的編輯認為STORM可以幫助他們編輯一個新主題的維基百科文章。對於STORM對整個維基百科社群的有用性表達了更多的保留意見;儘管如此,70%的編輯認為它是有用的,只有10%的人不同意。

7 相關工作
檢索增強生成(RAG)在推理時透過檢索來增強語言模型(LMs)是一種典型的方式來利用外部知識庫。一些工作使用檢索來構建示範,用於上下文學習(Li等,2023;Liu等,2022;Agrawal等,2023;Poesia等,2022;Shi等,2022;Khattab等,2022),另一系列工作使用檢索為LMs提供額外資訊以供依據。Lewis等(2020)研究了知識密集型NLP任務上的RAG,並發現它提高了多樣性和事實性。Semnani等(2023)設計了一個基於RAG的聊天機器人,基於英文維基百科,以阻止LLM聊天機器人產生幻覺。此外,RAG可用於生成帶有引用的文字(Menick等,2022;Gao等,2023)和構建帶屬性的問答系統(Bohnet等,2023)。雖然RAG在問答中被廣泛研究,但如何將其用於長篇文章生成則較少被探討。作為一個通用框架,RAG在檢索來源和時間上都具有靈活性。檢索來源可以從領域資料庫(Zakka等,2023)、程式碼文件(Zhou等,2023)到整個網際網路(Nakano等,2022;Komeili等,2022)。關於時間,除了在生成前一次性檢索,系統可以設計為在生成過程中自我決定何時檢索(Jiang等,2023b;Parisi等,2022;Shuster等,2022;Yao等,2023)。自動說明性寫作與其他型別的長篇文章生成(Yang等,2022;Feng等,2018)不同,自動說明性寫作需要依據外部文件,並利用閱讀和寫作之間的相互作用。Balepur等(2023)提出了ImitateRetrieve-Paraphrase框架,用於段落級別的說明性寫作,以解決從多個來源合成資訊的挑戰。Shen等(2023)強調,說明性寫作需要作者對源文件的意義構建過程和良好的概要規劃。我們透過專注於寫作前階段來解決這些挑戰。

NLP中的問題提問問題提問能力在NLP系統中已經擴充套件到幾個方面,包括生成澄清問題以理解使用者意圖(Aliannejadi等,2019;Rahmani等,2023),並將大問題分解為更小的問題以提高組合推理(Press等,2023)。雖然人類通常提問以學習新知識(Tawfik等,2020;Booth等,2003),但在資訊尋求對話中如何最佳化問題的資訊量和特異性仍然是一個較少探討的問題。最接近的工作是Qi等(2020),它使用單字精度函式定義問題的資訊量,並使用強化學習來提高問題的資訊量。

8 結論
我們提出了STORM,一個基於LLM的寫作系統,自動化了從頭開始建立類似維基百科文章的寫作前階段。我們策劃了FreshWiki資料集,並建立了評估標準,以研究生成長篇文章的能力。實驗結果表明,STORM中的問題提問機制提高了概要和文章的質量。透過改進的廣度和深度,STORM透過專家評估揭示了有根據寫作系統的新挑戰。我們研究中的經驗豐富的維基百科編輯一致認為STORM對他們的寫作前階段有幫助。

限制
在這項工作中,我們探索了從頭開始生成類似維基百科的文章,以此推動自動說明性寫作和長篇文章生成的前沿。雖然我們的方法在自動和人類評估中顯著優於基線方法,但機器編寫的文章質量仍然落後於經過良好修訂的人類撰寫的文章,特別是在中立性和可驗證性方面。儘管STORM在研究給定主題時發現了不同的視角,但收集的資訊可能仍然偏向於網際網路上的主要來源,並可能包含宣傳內容。此外,這項工作中識別的可驗證性問題超越了事實性幻覺,這突顯了有根據寫作系統的新挑戰。這項工作的另一個限制是,儘管我們專注於從頭開始生成類似維基百科的文章,但我們的任務設定仍然簡化,只考慮了自由形式文字的生成。人類撰寫的高質量維基百科文章通常包含結構化資料和多模態資訊。我們將探索生成多模態有根據文章的任務留給未來的工作。

致謝
我們感謝You.com慷慨地提供了支援我們實驗的搜尋API。我們還感謝Sina J. Semnani、Shicheng Liu、Eric Zelikman提供有用的反饋,以及ACL ARR審稿人提供寶貴的評論。這項工作部分得到了Verdant Foundation和Microsoft Azure AI學分的支援。Yijia Shao得到了史丹佛大學工程學院獎學金的支援。

倫理宣告
與創造性生成不同,有根據的文章生成可能會影響人們瞭解主題或消費源資訊的方式。這項工作中的所有研究和評估都旨在透過不線上釋出生成的內容和實施嚴格的準確性檢查來防止錯誤資訊的傳播。我們避免對維基百科或相關社群造成任何干擾,因為我們的系統不與活頁互動。此外,雖然我們試圖生成有根據的文章,但我們相信這項工作與隱私問題無關,因為我們只使用網際網路上公開可用的資訊。我們工作的主要風險是,我們的系統基於網際網路上的資訊生成維基百科文章,而網際網路上的資訊本身可能包含一些偏見或歧視內容。目前,我們的系統依賴於搜尋引擎來檢索資訊,但沒有包含任何後處理模組。我們認為,改進檢索模組以覆蓋不同觀點的廣泛範圍,並向當前系統新增內容篩選模組,將是實現生成文章中更好的中立性和平衡的關鍵下一步。從倫理角度來看,我們認為這項工作的另一個限制是,我們目前只考慮編寫英文維基百科文章。將當前系統擴充套件到多語言設定是未來工作的一個有意義的方向,因為更多的主題在非英語語言中沒有維基百科頁面。

相關文章