專為五大科學領域定製,NASA與IBM合作開大語言模型INDUS

ScienceAI發表於2024-06-27

圖片
INDUS 以南天星座命名,是一套全面的大型語言模型,支援五個科學領域。(來源:NASA)

編輯 | KX

在大量資料上訓練的大型語言模型 (LLM) 在自然語言理解和生成任務上表現出色。大多數流行的 LLM 使用 Wikipedia 等通用語料庫進行訓練,但詞彙的分佈變化導致特定領域的效能不佳。

受此啟發,NASA 與 IBM 合作開發了 INDUS,這是一套全面的 LLM,專為地球科學、生物學、物理學、太陽物理學、行星科學和天體物理學領域量身定製,並使用從不同資料來源的精選科學語料庫進行訓練。

INDUS 包含兩類模型:編碼器和句子 Transformer。編碼器將自然語言文字轉換為 LLM 可以處理的數字編碼。INDUS 編碼器在包含天體物理學、行星科學、地球科學、太陽物理學、生物和物理科學資料的 600 億個 tokens 的語料庫上進行訓練。

相關研究以「INDUS: Effective and Efficient Language Models for Scientific Applications」為題,釋出在 arXiv 預印平臺。

圖片

論文連結:https://arxiv.org/abs/2405.10725

在通用領域語料庫上訓練的 LLM 在自然語言處理 (NLP) 任務上表現出色。然而,先前的研究表明,使用特定領域語料庫訓練的 LLM 在專門任務上表現更好。

比如,有研究者已經開發了幾個特定領域的 LLM,例如 SCIBERT、BIOBERT、MATBERT、BATTERYBERT 和 SCHOLARBERT,目的是提高領域內 NLP 任務的準確性。

INDUS:一套全面的 LLM

在該研究中,研究人員特別關注與地球、天體、太陽和太陽系內的行星相關的跨學科領域,例如物理學、地球科學、天體物理學、太陽物理學、行星科學和生物學。

圖片

圖示:INDUS 模型概覽。(來源:論文)

INDUS 是一組基於編碼器的 LLM,專注於這些感興趣的領域,用不同來源的精心策劃的語料庫進行訓練。INDUS 中包含的 50,000 個詞彙中有超過一半是用於訓練的特定科學領域所獨有的。INDUS 編碼器模型對大約 2.68 億個文字對(包括標題/摘要和問題/答案)上的句子 Transformer 模型進行微調。

具體而言:

1. 利用位元組對編碼演算法,從精選的科學語料庫中構建了定製的標記器 INDUSBPE。

2. 使用精選的科學語料庫和 INDUSBPE 標記器預訓練了多個僅編碼器的 LLM。進一步透過使用對比學習目標對僅編碼器模型進行微調來建立句子嵌入模型,以學習「通用」句子嵌入。使用知識提煉技術訓練了這些模型的更小、更高效的版本。

3. 建立了三個新的科學基準資料集,CLIMATE-CHANGE NER(實體識別任務)、NASA-QA(提取問答任務)和 NASA-IR(檢索任務),以進一步加速這一多學科領域的研究。

4. 透過實驗結果,展示了模型在這些基準任務以及現有領域特定基準上的出色表現,超越了 RoBERTa 等通用模型以及 SCIBERT 等科學領域編碼器。

比非領域特定 LLM 表現更好

透過為 INDUS 提供領域特定詞彙,研究團隊在生物醫學任務基準、科學問答基準和地球科學實體識別測試中,比開放的、非領域特定 LLM 表現更好。

將 INDUS 模型與類似大小的開源模型 RoBERTaBASE、SCIBERT、MINILM 和 TINYBERT 進行了比較。

自然語言理解任務上,在基礎模型中,INDUSBASE 在微觀/宏觀平均值上明顯優於通用 RoBERTa 模型,同時在生物領域特定的對應模型 SCIBERT 中也取得了競爭性的表現。

表:BLURB 的評估結果。(來源:論文)

圖片

BLURB 在氣候變化 NER 任務上明顯優於相應的基線模型,表明了對大型特定領域資料進行訓練的有效性。

表:氣候變化 NER 基準結果。(來源:論文)

圖片

在 NASA-QA(提取問答任務)中,使用相關的 SQuAD 對擴充訓練集進行微調。所有模型都經過 15 epochs 的微調,結果觀察到 INDUSBASE 的表現優於所有類似規模的模型,而 INDUSSMALL 的表現相對較強。

表:NASA-QA 基準結果。(來源:論文)

圖片

在檢索任務中,在 NASA-IR 資料集和 BEIR 基準上評估了 INDUS 模型,該基準由 12 個涵蓋各種領域的檢索任務組成。

如下表所示,兩個句子嵌入模型在 NASA-IR 任務上的表現都明顯優於基線,同時在幾個 BEIR 任務上仍保持良好的效能。

表:NASA-IR 和 BEIR 的評估結果。(來源:論文)

圖片

研究人員還在單個 A100 GPU 上測量了 BEIR 自然問題集的 4,202 個測試查詢中每個查詢的平均檢索時間。這個時間包括編碼查詢語料庫的時間以及檢索相關文件的時間。值得注意的是,INDUS-RETRIEVERSMALL 在 NASA-IR 和 BEIR 上的表現都優於 INDUS-RETRIEVERBASE,同時速度快了約 4.6 倍。

IBM 研究員 Bishwaranjan Bhattacharjee 對整體方法進行了評論:「我們不僅擁有自定義詞彙表,還擁有用於訓練編碼器模型的大型專業語料庫和良好的訓練策略,從而實現了卓越的效能。對於較小、較快的版本,我們使用神經架構搜尋來獲得模型架構,並使用知識提煉來對其進行訓練,同時監督較大的模型。」

NASA 生物和物理科學 (BPS) 部門 Sylvain Costes 博士討論了整合 INDUS 的好處:「將 INDUS 與開放科學資料儲存庫 (OSDR) 應用程式程式設計介面 (API) 整合使我們能夠開發和試用聊天機器人,為瀏覽單個資料集提供更直觀的搜尋功能。我們目前正在探索改進 OSDR 內部策展資料系統的方法,利用 INDUS 來提高策展團隊的工作效率並減少每天所需的手動工作量。」

參考內容:https://techxplore.com/news/2024-06-nasa-ibm-collaboration-indus-large.html

相關文章