AI4Science與LLM的碰撞:生物分子+文字的聯合建模,人大高瓴、微軟、華科、中科大團隊最新綜述

ScienceAI發表於2024-03-14

圖片

作者 | 裴啟智

隨著大模型和 AI4Science 的蓬勃發展,越來越多的工作開始關注生物分子(Biomolecule)與自然語言(Language)的聯合建模。這種方法利用文字資料中所包含的生物分子的豐富、多方面的描述,增強模型對其的理解,提高生物分子屬性預測等下游任務的效果,為全面表示和分析生物分子開闢了新的途徑。

近日,人大高瓴聯合微軟、華科、中科大等機構釋出了綜述文章:《Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey》[1]。該綜述從生物分子的表徵方式、建模目標、表示學習、應用場景等方面出發,系統地總結了相關工作,以及可用的資料、程式碼、模型、benchmark。

圖片

論文連結:https://arxiv.org/abs/2403.01528

GitHub連結:https://github.com/QizhiPei/Awesome-Biomolecule-Language-Cross-Modeling

圖片

圖片

下面對各個章節進行簡單展開

生物分子的表徵方式

一般來說,文字、分子和蛋白質的模態有不同的表徵方式,例如一維序列、二維圖和三維結構。下圖展示了不同模態及其表示方法的簡單總結。文字通常使用一維序列來表示。而對於生物分子來說,通常有一維序列、二維圖和三維結構的表示。另外,還有一些其他的表示,例如分子影像、分子指紋、蛋白質的 GO term 等等。

圖片

聯合建模的直覺和目標

生物分子和自然語言的聯合建模可以克服傳統生物分子表示固有的侷限性。雖然現有的表示方法可以有效地捕獲生物分子的固有屬性,但它們往往忽略了豐富的外部知識,例如生物文獻、資料庫知識圖譜

圖片

而將生物分子與外部知識源聯合建模的主要目標是開發能夠理解和預測生物分子的複雜行為和相互作用的模型,包括表示學習、指令遵循和 Agent/Assistant 模型。此外,語言為生物分子設計提供了更靈活的媒介/介面。

透過生物分子和語言的聯合建模,模型可以利用廣泛的生物知識來完成生物分子相關的任務,從而能夠對生物分子的生成和編輯進行更細緻的控制。這種建模有助於探索廣闊的分子空間,從而創造出具有所需特性的新型生物分子。

圖片

模型架構

Transformer 架構是該領域大多數模型框架的基石。我們先介紹了傳統的 Transformer 模型,包括 encoder/decoder-only 和 encoder-decoder 架構。此外,我們還探索了該領域一些 Transformer 變體。

比如 PaLM-E style[2] 模型,包括一個 external encoders、modality projector 和一個 base LLM。透過將生物分子和文字空間對齊,modality projector 可以從生物分子 encoder 中提取與文字相關的分子特徵,從而使語言模型能夠理解生物分子。PaLM-E style 模型不僅可以有效地利用預訓練的生物模型,還可以使LM能夠處理複雜的 2D/3D 生物分子圖/結構。

此外還有 dual/multi-stream 模型,採用多個 encoder 來建模不同的模態,並且使用對比學習的訓練目標來使得這些 encoder 的輸出在同一個空間中對齊。

圖片

表徵學習

我們對訓練任務和技巧進行了總結。訓練任務包括掩碼語言建模(MLM)、自迴歸預測(NTP)、跨模態一致性學習(CMA)、模態內部對比學習(SCL)。不同的任務適配不同的模型架構,用以增強模型對於單模態的理解和跨模態的對齊。

圖片

訓練的技巧和策略包括多階段訓練、多工訓練、LLM增強的訓練、引數高效微調(PEFT)、零樣本和少樣本測試等。

多階段訓練通常需要兩個以上階段的訓練,每個階段都針對一個特定領域的資料。多工訓練試圖在訓練中使模型能夠從不同的任務中受益,從而獲得各種能力。LLM 增強的訓練利用 LLM(例如ChatGPT)來增強生物分子的描述,這種資料增強策略可以使得下游模型更好地理解生物分子。引數高效微調(PEFT)方法對於大型模型節省計算成本非常重要。零樣本和少樣本測試可以很好地發揮預訓練大模型的潛力。

圖片

應用和相關資源

這種跨模態建模得到的模型可以完成各種生物相關的下游任務,例如生物分子性質預測、相互作用預測、生物分子反應相關的任務、文字-生物分子的相互檢索和生成、生物分子最佳化等等任務。

同時,我們也總結了生物分子-文字聯合建模領域的相關工作(程式碼、模型)、資料集、benchmark。

圖片

圖片

未來展望

文章就幾個方面對未來的幾個方向進行了展望,例如對生物分子進行專門的分詞、生物資料的稀缺性問題、生物任務間的泛化、更好地利用現有LLM的方式(例如檢索增強技術、上下文情境學習、思維鏈推理、工具學習等等),以及可能涉及到的道德和倫理問題。

參考文獻

[1] Pei, Qizhi, et al. "Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey." *arXiv preprint arXiv:2403.01528* (2024).

[2] Driess, Danny, et al. "Palm-e: An embodied multimodal language model." *arXiv preprint arXiv:2303.03378* (2023).

相關文章