為大模型提供全新科學複雜問答基準與測評體系,UNSW、阿貢、芝加哥大學等多家機構聯合推出SciQAG框架

ScienceAI發表於2024-07-24

圖片

編輯 | ScienceAI

問答(QA)資料集在推動自然語言處理(NLP)研究發揮著至關重要的作用。高質量QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。

儘管當前已有許多科學QA資料集,涵蓋了醫學、化學、生物等領域,但這些資料集仍存在一些不足。

其一,資料形式較為單一,大多數為多項選擇題(multiple-choice questions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答(openQA)可以更加全面地評估模型的能力,但缺乏合適的評估指標。

其二,現有資料集的內容很多來源於大學及以下等級的教科書,難以評估LLM在實際學術研究或生產環境中的高層次知識保持能力。

其三,這些基準資料集的建立依賴人類專家標註。

應對這些挑戰對建立更全面的QA資料集至關重要,也有利於對科學LLM的更精準評估。

圖片

圖示:從科學文獻中生成高質量科學問答對的SciQAG框架。

為此,美國Argonne國家實驗室、芝加哥大學Ian Foster 教授(2002年戈登貝爾獎得主)團隊、澳大利亞新南威爾士大學Bram Hoex教授UNSW AI4Science團隊、AI4Science 公司GreenDynamics 與香港城市大學揭春雨教授團隊聯合提出了 SciQAG,第一個基於大語言模型(LLM)從大型科學文獻語料庫中自動生成高質量科學開放性問答對的新型框架。

圖片


論文連結:https://arxiv.org/abs/2405.09939

github連結:https://github.com/MasterAI-EAM/SciQAG

基於SciQAG,研究人員構建了一個大規模、高質量、開放式的科學QA資料集 SciQAG-24D ,包含從24個科學領域的22,743篇科學論文中提取的188,042 個QA對,旨在服務LLM的微調和科學問題解答能力評估。

實驗證明,在 SciQAG-24D 資料集上對 LLM 進行微調可以顯著提高它們在開放式問題解答和科學任務中的效能。

資料集、模型和評估程式碼已經開源(https://github.com/MasterAI-EAM/SciQAG),以促進AI for Science社群對開放式科學問答的共同開發。

SciQAG框架與SciQAG-24D基準資料集

SciQAG由QA生成器和QA評估器組成,旨在大規模快速生成基於科學文獻的多樣化開放式問答對。首先,生成器將科學論文轉換為問答對,然後評估器過濾掉不符合質量標準的問答對,從而獲得高質量的科學問答資料集。

QA生成器

研究人員經過對比實驗設計了兩步提示詞(prompt),令LLM先提取關鍵詞,再基於關鍵詞生成問答對。

由於生成的問答資料集採用「閉卷」模式,即不提供原始論文,只關注提取出的科學知識本身,prompt要求生成的問答對不依賴或參考原始論文中的特有資訊(例如不得出現代稱如「本/該論文」,「本/該研究」等字樣,或向文中表格/圖片提問)。

為了平衡效能和成本,研究人員選擇微調一個開源LLM作為生成器。SciQAG使用者可以根據自身情況選擇任何開源或閉源LLM作為生成器,既可以使用微調,也可以使用提示詞工程。

QA評估器

評估器用於完成兩個目的:(1)評估生成的問答對質量;(2)基於設定標準摒棄低質量的問答對。

研究人員開發了一個綜合評估指標 RACAR,它由五個維度組成:相關性(relevance)、不可知性(agnosticism)、完整性(completeness)、準確性(accuracy)和合理性(reasonableness)。

在本研究中,研究人員直接使用 GPT-4 作為 QA 評估器,按照RACAR對生成的 QA 對進行評估,評估等級為 1-5(1 表示不可接受,5 表示完全可以接受)。

如圖所示,為了衡量 GPT-4 與人工評估之間的一致性,兩位領域專家使用 RACAR 指標對 10 篇文章(共 100 問答對)進行人工評估。使用者可以根據自身需求選擇任何開源或閉源LLM作為評估器。

圖片


圖示:GPT-4 分配分數與專家標註分數之間的 Spearman 和 Pearson 相關性。

SciQAG 框架的運用

該研究從Web of Science (WoS)核心合集資料庫中獲取了24類高引用論文共計22,743篇,來自材料科學、化學、物理、能源等領域,旨在構建一個可靠、豐富、平衡且具有代表性的科學知識來源。

為了微調開源LLM以形成QA生成器,研究人員從論文集合中隨機選擇426篇論文作為輸入,透過提示GPT-4生成4260個種子QA對。

然後,研究人員在這些種子資料上微調了Vicuna-7b模型,生成提示被轉換為指令<instruction>,論文內容填充輸入<input>欄位,輸出<output>為生成的QA對

,以標準監督的方式訓練模型生成例項輸出。

使用經過訓練的QA生成器在剩餘論文上進行推理,共生成227,430個QA對(包括種子QA對)。從每個類別中抽取50篇論文(共1,200篇),使用GPT-4計算每個生成的QA對的RACAR分數,過濾掉任一維分數低於3的QA對作為測試集。

對於餘下的QA對,則使用基於規則的方法過濾掉所有包含論文特有資訊的問答對以形成訓練集。

SciQAG-24D 基準資料集

基於以上,研究人員建立了開放式科學 QA 基準資料集 SciQAG-24D,篩選後的訓練集包括 21,529 篇論文和 179,511 個 QA 對,而篩選後的測試集包含 1,199 篇論文和 8,531 個 QA 對。

統計顯示,99.15%回答中的資料來自原論文,87.29%的問題相似度在0.3以下,且回答對原文內容的覆蓋度達到78.26%。

該資料集應用廣泛:訓練集可用於微調 LLM,為其注入科學知識;測試集可⽤於評估LLM在某特定或整體科學領域中的開放式QA任務表現。由於測試集較大,因此它也可以作為高質量資料用於微調。

圖片


圖示:SciQAG-24D資料集訓練和測試中不同類別的文章比例。

實驗結果

研究人員進行了全面的實驗以對比不同語言模型之間的科學問答效能差異及探索微調的影響。

零樣本設定(zero-shot setting)

研究人員使用 SciQAG-24D 中的部分測試集對五個模型進行了零樣本效能對比。其中兩個是開源的 LLM:LLaMA1 (7B) 和 LLaMA2-chat (7B),其餘的是閉源 LLM 。

透過API呼叫:GPT3.5 (gpt-3.5-turbo)、GPT-4 (gpt-4-1106-preview) 和 Claude 3 (claude-3-opus-20240229)。每個模型在測試中被提示了 1000 個問題,並透過 CAR 指標(由RACAR指標調整而來,只關注回答評估)評估其輸出,以衡量其在回答科學研究問題方面的零樣本能力。

如圖所示,在所有模型中,GPT-4 在完備性(4.90)和合理性(4.99)方面得分最高,而 Claude 3 的準確性得分最高(4.95)。GPT-3.5 的表現也非常出色,在所有指標上的得分都緊隨 GPT-4 和 Claude 3 之後。

值得注意的是,LLaMA1 在所有三個維度上的得分都最低。相比之下,LLaMA2-chat 模型雖然得分不如 GPT 模型高,但在所有指標上都比原來的 LLaMA1 有了大幅提高。結果表明了商用LLM在回答科學問題方面的卓越效能,同時開源模型(如 LLaMA2-chat)也在這個方面取得了顯著進步。

圖片


圖示:SciQAG-24D上的零樣本測試和微調測試(LLAMA1-QA)

微調設定(fine-tuning setting)

研究人員選擇了零樣本效能最差的 LLaMA1 在SciQAG-24D的訓練集上進行微調,以獲得 LLaMA1-QA。透過三個實驗,研究人員證明 SciQAG-24D 可以作為有效的微調資料,提高下游科學任務的效能:

(a)LLaMA-QA與原始 LLaMA1的在未見過的SciQAG-24D測試集上的表現比較。

如上圖所示,與原始 LLaMA1相比,LLaMA1-QA的效能有了顯著提高(完整性提高了13%,準確性和合理性提高了 超過30%)。這表明LLaMA1已經從SciQAG-24D的訓練資料中學習了回答科學問題的邏輯,並內化了一些科學知識。

(b)在 SciQ(一個科學 MCQ 基準)上的微調錶現比較。

下表的第一行顯示LLaMA1-QA比LLaMA1稍有進步(+1%)。根據觀察,微調也增強了模型的指令跟隨能力:無法解析輸出的機率從LLaMA1的 4.1%降至LLaMA1-QA的 1.7%。

(c)在多種科學任務上的微調錶現比較。

評估指標上,分類任務使用F1-score,迴歸任務使用MAE,轉換任務使用KL散度。如下表所示,科學任務中LLaMA1-QA與LLaMA1模型相比有明顯改善。

最明顯的改進體現在迴歸任務中,MAE從463.96降至185.32。這些發現表明,在訓練過程中加入QA對可以增強模型學習和應用科學知識的能力,從而提高其在下游預測任務中的表現。

令人驚訝的是,與專門設計的具有特徵的機器學習模型相比,LLM 可以在某些任務中取得相當甚至超越它們的結果。例如,在帶隙任務中,雖然LLaMA1-QA 的表現不如 MODNet 等模型(0.3327),但它已經超過了AMMExpress v2020(0.4161)。

在多樣性任務中,LLaMA1-QA 的表現優於深度學習基線(0.3198)。這些研究結果表明,LLM在特定科學任務中具有巨大潛力。

圖片


圖示:LLaMA1和LLaMA1-QA在SciQ和科學任務上的微調錶現(M代表多項選擇,C代表分類,R代表迴歸,T代表轉換)

總結與展望

(1)SciQAG是一個從科學文獻中生成QA對的框架,結合用於評估和篩選QA對的RACAR指標,可高效地為資源匱乏的科學領域生成大量基於知識的QA資料。

(2)團隊生成了一個包含188,042個QA對的綜合開源科學QA資料集,稱為SciQAG-24D。訓練集用於微調LLM,測試集評估LLM在開放式閉卷科學QA任務上的表現。

對SciQAG-24D測試集上幾個LLM的零樣本效能進行了比較,並在SciQAG-24D訓練集上微調了LLaMA1,得到了LLaMA1-QA。這種微調顯著提高了其在多個科學任務上的表現。

(3)研究表明,LLM在科學任務中具有潛⼒,LLaMA1-QA的結果可以達到甚⾄超過機器學習基線的⽔平。這證明了SciQAG-24D的多方面效用,表明將科學QA資料納入訓練過程可以增強LLM的學習和應用科學知識的能力。

相關文章