北大高歌教授綜述:生物資訊與大語言模型

生物信息与育种發表於2024-10-06

2024年6月,北京大學高歌教授課題組在Quantitative Biology期刊上發表了一篇題為“Foundation models for bioinformatics”的前瞻性綜述。文章從基於文字的大語言模型在生物學資訊任務上的應用與基於生物學資料預訓練的基礎模型兩個角度探討了基礎模型對生物資訊領域的影響,目前的發展與侷限性,及潛在的發展方向。

圖片

摘要

基於Transformer的基礎模型,如ChatGPT,已經徹底改變了我們的日常生活,並影響了包括生物資訊學在內的諸多領域。這篇文章首先討論了文字基礎模型在生物資訊學任務上的直接應用,重點討論瞭如何最大限度地利用標準的大語言模型,並減少它們固有的缺陷。同時,探討了為生物資訊學量身定製的基於Transformer的基礎模型,這些模型既適用於序列資料也適用於非序列資料。特別展望了生物資訊學基礎模型的進一步發展方向以及面臨的挑戰。

簡介

深度學習正在經歷一場正規化轉變,隨著大規模基礎模型的興起,這些模型在大量資料集上進行預訓練,並適應多種下游任務。這些模型的基礎性質不僅突顯了它們廣泛的應用,也意味著它們的不完整性。在這裡,我們將關注兩個主題:用於基於文字的生物資訊學資料探勘的標準文字大型語言模型(LLMs)和為生物資料適應的基礎模型(圖1)。

圖片

圖1 生物資訊學基礎模型的應用。以大語言模型為代表的文字基礎模型,可以幫助進行生物資訊學文字挖掘,充當人工智慧閱讀器或帶有外掛的知識庫。Transformer架構也可以適應生物序列和其他可序列化資料,以構建大規模的生物基礎模型。

大多數基礎模型都基於Transformer架構。Transformer背後的關鍵概念“注意力”,強調了token間的關係,最初在bi-LSTM網路上以“加性注意力”的形式出現在公眾視野中。後來在2017年,注意力機制進一步轉變為“點積/乘性注意力”設定,被命名為Transformer,具有高達數十億引數的高可擴充套件性,使得可以在大量未標記資料上以自監督的方式進行並行預訓練。預訓練策略主要分為兩類:僅編碼器(BERT類)架構,採用自編碼掩碼語言模型訓練目標;僅解碼器(GPT類)架構,採用自迴歸因果語言模型損失。

經過面向聊天的微調和對齊後,這些預訓練模型成為了我們現在日常生活中遇到的標準化文字LLMs,包括ChatGPTs、Claude、Gemini,以及LLaMA和BLOOM家族。生物和生物醫學資訊挖掘已經被廣泛採用作為這些LLMs的直接下游應用。同時,Transformer架構已經被適應到生物序列,如DNA、RNA、蛋白質,以及可序列化資料,如單細胞組學和小分子,這些得益於Transformer的可擴充套件性和容量。

生物資訊學的文字型大語言模型

大型語言模型的內在邏輯推理能力,源於它們提取輸入文字的句法和語義結構的能力,使LLMs成為對大量文獻進行上下文敏感總結的有效“AI讀者”。這些能力使LLMs能夠參與資料庫的傳統手動整理過程。此外,經過進一步對比性微調的LLMs可以生成給定句子的語義特徵向量表示(見OpenAI的APIs),將它們的能力從基於關鍵詞的搜尋擴充套件到基於語義的搜尋。同時,LLMs可以被視為關於生物概念的“知識庫”。有幾項研究測試了LLMs在生物問題回答上的表現,包括基因相互作用、生物途徑、基因組功能和基於標記基因的細胞型別註釋。特別是,已經很好地證明了針對生物醫學定製的LLMs在醫學文獻上訓練能夠更好地理解和回答特定領域的問詢。值得注意的是,當前LLMs存在幻覺(定義為“生成語法和語義正確但不符合事實或無意義的文字”)的事實使它們成為生物資訊學工作流程的好副駕駛,而不是可靠的顧問。例如,在Reactome整理試驗中,ChatGPT被查詢以獲取晝夜節律途徑的額外參與者。ChatGPT提出了13個候選者,其中7個有文獻支援但在傳統手動整理中被忽視,5個無法確認,1個不準確。

已經展示出幾種策略可以提高LLMs在現實世界中的可用性。

  1. 提示詞(prompt)調整總是你在遇到LLMs問題時的首選。以前的工作展示了角色提示、思維鏈提示和上下文學習在基因關係挖掘中的重要性,並促進了一種迭代提示細化策略以提高效能。

  2. 眾所周知,LLMs容易幻覺,並且不能說出未知的事物,特別是當被問及詳細問題或超出訓練語料庫知識庫的問題時。儘管流行的LLMs的預訓練語料庫包括幾個生物資料庫,如PubMed摘要和PubMed Central全文,但仍然可能需要將更多生物文字納入預訓練過程,以減輕與生物學相關的任務中的幻覺。

  3. 提取增強生成(RAG)已被建議用於抑制幻覺。RAG背後的關鍵是透過基於文字嵌入的資料庫搜尋直接提供額外資訊到LLMs的聊天上下文中。LLMs的推理過程可以利用這些資訊更好地處理下游任務。

  4. 更一般地說,像ChatGPTs這樣的現代聊天機器人已經被預訓練以理解API並以JavaScript物件表示法模式返回,它們知道何時以及如何呼叫作為外掛提供的函式或工具來加強自己。這些外掛函式可以注入額外的能力到LLMs中,以支援RAG的向量資料庫搜尋、網頁瀏覽和PubMed搜尋等。這些外掛和不斷增長的模型規模可能會進一步提高LLMs處理生物任務的能力。

生物資料的基礎模型

接下來,我們討論在生物資料上預訓練的基礎模型,包括生物序列資料(DNA、RNA和蛋白質)以及可以序列化的資料(小分子和單細胞組學)。Transfomer架構天然適合於生物序列,在為序列資料設計基礎模型時有幾個關鍵選擇。

  1. 我們是否應該選擇類似BERT的結構,它擅長提取有意義的嵌入,還是選擇類似GPT的結構,它利用生成能力。簡而言之,對於類似BERT的模型,從大規模預訓練資料中學習到的表示是每個標記(即氨基酸或核苷酸)的上下文表示,某種程度上是多序列比對(MSA)的替代。上下文化表示可以進一步用於多種下游任務,包括結構預測、突變效應推斷和功能屬性預測。相反,類似GPT的模型可以適應基於控制標籤的從頭蛋白質生成或具有高多樣性和成功率的蛋白質工程任務。

  2. 是否在單條序列還是MSA級別進行預訓練。

  3. 我們標記和建模序列的規模:DNABERT-2使用位元組對編碼演算法對DNA序列進行標記,並將多個殘基視為一個標記以提高計算效率,而ESM All-Atom選擇在預訓練期間將殘基表示擴充套件到原子級別,以進行更細粒度的建模,並結合了小分子模式。

就像Transformer在計算機視覺中的應用,它也可以適應其他可序列化的生物資料。小分子可以輕鬆序列化為SMILES字串並輸入變換器以學習表示,以預測分子屬性、藥物-靶標相互作用和其他功能任務,從而促進藥物設計。對於單細胞組學,序列化和應用transformer架構更具挑戰性。Geneformer、GeneCompass和Nicheformer透過只考慮個別基因歸一化表達的相對排名來序列化單細胞計數矩陣。同時,scBERT、scGPT、scFoundation和xTrimoGene將經典變換器模型中的位置嵌入替換為基因嵌入,並將分箱或轉換的表達視為標記。

從預訓練模型中得到的上下文化基因級嵌入、細胞級嵌入和注意力模式可以為下游任務量身定製,包括細胞型別註釋、擾動分析、調控網路推斷等。

另一項工作將文字LLMs作為單細胞分析的外部知識引入。GenePT和scELMo利用基於文字LLMs的嵌入作為上述基於表達的嵌入的正交方法,用於下游任務。由於已經證明LLMs可以生成句子的語義嵌入,這些研究為文字LLMs提供基因和細胞的文字摘要,以生成文字基因/細胞嵌入,並根據表示式配置檔案聚合它們,以生成用於下游任務的細胞嵌入。這些研究提出了將文字和生物學基礎模型整合以提高效能、可用性和可解釋性的新方向。

討論與展望

到目前為止,基於transformer的基礎模型仍然存在一些限制。可解釋性最初被認為是transformer架構的優勢,因為“注意力”應該突出序列內的相互關係。然而,後來的工作發現,解釋和“注意力”之間仍然存在差距,需要額外的步驟。儘管不考慮位置嵌入的情況下,transformer操作本身可以應用於任何長度的序列,但其空間和時間複雜度隨著序列長度的增長而呈二次方增長,因此限制了輸入上下文的長度。該領域正在呼喚新一代的transformer操作替代品,而不損害其可擴充套件性和網路中長距離依賴之間的O(1)資訊路徑長度。這一目標可能透過(1)更好的記憶體限制處理實現,(2)稀疏或低秩近似,以及(3)利用狀態空間模型或其他形式來實現。

生物資訊學基礎模型的進一步發展指出了幾個方向。

  1. 文字LLMs在更多生物資訊檢索任務上的能力邊界需要進一步測試,並且可以透過外掛來增強LLMs。

  2. 特別是,隨著該領域已經學到“痛苦的教訓”,即規模法則是當今LLMs成功的秘訣,將基礎模型擴充套件到數十億引數以用於生物資料仍有待測試。需要更多的研究來回答這一領域有哪些新出現的屬性。模型規模的增長反過來又迫切需要更多的經過良好清洗的開源生物資料。

  3. 從文字、影像和聲音的多模態模型的成功中汲取靈感,跨不同種類的生物序列、不同的單細胞組學、生物醫學影像和組學的多模態模型也是有趣的話題,並且正吸引越來越多的關注。

擴充套件閱讀:QB期刊 | 北京大學高歌教授展望基礎模型在生物資訊學領域的應用與影響

圖片

相關文章