大語言模型如何助力藥物開發? 哈佛團隊最新綜述

ScienceAI發表於2024-09-18

圖片

作者 | 莫納什大學鄭伊圳

編輯 | ScienceAI

大語言模型因其展現出類人般的推理、工具使用和問題解決能力而備受矚目,此外,它在化學、生物學等專業領域也展現出深厚的理解能力,進一步提升了其應用價值。

近日,哈佛大學、莫納什大學和格里菲斯大學(Griffith University)組成的研究團隊,發表最新綜述《Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials》。

圖片

論文連結:https://arxiv.org/pdf/2409.04481

本文闡述大語言模型可以在理解疾病機制、藥物發現和臨床試驗三個藥物發現的基本階段展現出重要潛力。

圖片

圖示:大型語言模型在藥物發現和開發的未來格局。(來源:論文)

首先,本文展示了過去、現在的藥物研發與臨床試驗中的過程並展現了大語言模型(LLMs)未來在這些階段的潛在應用。

理解疾病機制:

  • 過去:依賴手動文獻和專利搜尋。
  • 現在:除了手動文獻搜尋,還加入了功能基因組學分析。
  • 未來:LLMs 將自動識別靶基因,發現生化和藥理學原理。

藥物發現:

  • 過去:透過天然產物的發現和隨機篩選進行藥物研發。
  • 現在:使用虛擬篩選和基於結構的手動藥物設計。
  • 未來:LLMs 將設計新型治療方法,自動生成藥物設計,並自動進行實驗。

臨床試驗:

  • 過去和現在:手動匹配病人與試驗、設計臨床試驗以及收集臨床試驗資料。
  • 未來:LLMs 將自動進行病人匹配、試驗設計,並預測試驗結果。

大語言模型的分類

圖片

圖示:大語言模型的兩種主要正規化。(來源:論文)

本文將大語言模型分為兩類: 科學大語言模型(Scientific Language Model)和一般大語言模型(General Language Model)。兩者的對比和差異如下:

科學大語言模型:

  • 領域:涉及化學(分子)、生物學(蛋白質、基因)等專門領域。
  • 訓練資料:包括化學中的 SMILES、IUPAC 序列,蛋白質的 FASTA 序列,基因的 FASTA 序列等。
  • 任務解決能力:能夠處理分子、蛋白質、基因相關的任務,如逆合成規劃、反應預測、分子設計、蛋白質結構預測、基因網路分析等。
  • 工具型使用:作為工具,透過獲取任務所需資訊,生成預測結果(如蛋白質-配體結合親和力評分)。

通用語言模型:

  • 領域:基於更廣泛的文字資料,如書籍、網際網路、社交媒體等。
  • 訓練資料:包括書籍、問答網站、社交媒體、百科等來源。
  • 人類式能力:具備理解背景知識、推理、角色扮演(如化學家)、規劃、使用工具和資訊檢索等能力。
  • 助手型使用:可以像助手一樣與使用者互動,回答問題、解釋複雜概念並幫助使用者完成任務。

大語言模型在理解疾病機制中的作用

圖片

圖示:瞭解疾病機制。這張圖表分為兩部分,左邊展示了疾病研究的關鍵流程,右邊展示了大語言模型(LLM)在這些流程中的具體應用領域。(來源:論文)

疾病研究流程

1.臨床分型(Clinical Sub-typing):

透過多組學資料的收集(如基因、蛋白質、代謝組等),結合臨床分析和倫理法規要求,對疾病進行分型。目的是更好地理解疾病的異質性,從而為後續的靶點發現打下基礎。

2.靶點-疾病關聯(Target-Disease Linkage):

透過基因表達譜分析、多通路分析等方法,結合實驗工具(如 CRISPR-Cas9、RNA 干擾等),尋找並驗證疾病與潛在治療靶點的關聯性。這一步對於藥物開發至關重要。

3.靶點驗證(Target Validation):

驗證靶點的安全性與可行性,評估其藥物開發潛力。涉及靶點安全、藥物可及性(Drugability)和測試可行性。靶點的作用機制(如激動劑、拮抗劑、調節劑等)也會在這一階段進行確認,從而選擇合適的治療方式,如蛋白質、小分子或RNA治療。

LLM 的應用領域

1.基因組分析(Genomics Analysis):

LLM 可以幫助預測基因變異、啟動子區域、轉錄因子結合位點等資訊,從而幫助科研人員在基因組層面理解疾病機制。

2.轉錄組分析(Transcriptomics Analysis):

LLM 可以處理 mRNA 表達分析、基因網路分析等複雜資料,輔助研究人員挖掘重要的轉錄組資訊,瞭解基因的調控模式和表達差異。

3.蛋白質靶點分析(Protein Target Analysis):

LLM 能夠預測蛋白質結構、功能註釋、蛋白質間相互作用以及配體結合位點等資訊,幫助科研人員選擇潛在的藥物靶點。

4.疾病通路分析(Disease Pathway Analysis):

LLM 在疾病通路分析中能夠分析蛋白質與疾病之間的複雜相互作用,識別潛在的治療靶點和干預途徑,從而加速藥物開發過程。

5.輔助功能(Assistance):

LLM 還可以提供知識發現、資訊檢索等輔助功能,幫助科研人員快速獲取相關資訊,加快研究程序。

大語言模型在藥物發現中的作用

圖片

圖示:藥物發現。這張圖分為兩部分,左邊展示了藥物發現的過程,右邊展示了大語言模型(LLM)在藥物發現各階段的具體應用。(來源:論文)

藥物發現過程

1.藥物型別選擇:

科學家可以選擇不同的治療方式,包括蛋白質、小分子藥物和 RNA。該圖以小分子藥物為例,展示了它們在藥物開發中的應用。

2.藥物發現流程:

  • 命中識別(Hit Identification):透過篩選大量化合物,找到與靶點有初步反應的分子。
  • 命中到先導(Hit to Lead):進一步最佳化這些初步命中分子,以提高其與靶點的結合能力。
  • 先導最佳化(Lead Optimization):對先導化合物進行結構改造,增強其療效和藥物特性。
  • 臨床前研究(Pre-clinical):在進入臨床試驗前,評估候選藥物的安全性和有效性。
  • 藥物候選物(Drug Candidates):透過上述流程,產生最終可供臨床試驗的候選藥物。

LLM 的應用領域

1.化學領域(Chemistry):

LLM 可以用於化學機器人自動化合成、逆合成規劃和反應預測等任務,幫助化學家加速化合物的發現。

2.計算機模擬(In Silico Simulation):

LLM 能夠進行分子生成、蛋白質生成和蛋白質-配體相互作用預測,從而加快虛擬藥物篩選過程。

3.ADMET預測:

LLM 能夠預測候選藥物的藥代動力學(Pharmacokinetics)、毒性(Toxicity)和理化性質(Physicochemical Properties),幫助評估藥物在人體中的行為。

4.先導最佳化(Lead Optimization):

LLM 能夠透過最佳化分子結構和蛋白質相互作用,幫助改進候選化合物的療效和安全性。

5.輔助功能(Assistance):

LLM 還可以提供資訊檢索和知識解釋,幫助研究人員快速獲取所需資訊,提升藥物開發的效率。

大語言模型在臨床試驗中的作用

圖片

圖示:臨床試驗。這張圖表左側展示了臨床試驗的不同階段,右側展示了大語言模型(LLM)在這些階段中的應用。(來源:論文)

臨床試驗階段

1.第一階段(Phase 1):

主要測試藥物的安全性和最佳劑量水平。通常在 15 到 50 名健康志願者中進行。

2.第二階段(Phase 2):

探索藥物的有效性以及可能的副作用,參與人數通常少於 100 人。

3.第三階段(Phase 3):

將新治療與現有治療進行比較,驗證新藥物的效果,通常有超過 100 人參與。

4.第四階段(Phase 4):

藥物獲批後,評估其長期效果,通常有超過 1000 名參與者。

LLM 的應用領域

1.臨床實踐(Clinical Practice):

  • ICD 編碼:幫助生成和最佳化疾病分類編碼。
  • 病人-試驗匹配:透過分析患者特徵,自動匹配合適的臨床試驗。
  • 臨床試驗預測:預測臨床試驗的成功率和結果。
  • 臨床試驗規劃:協助研究人員制定有效的臨床試驗計劃。

2.患者結果(Patient Results):

患者結果預測:根據現有資料預測患者治療的效果。

3.輔助功能(Assistance):

  • 檔案撰寫:幫助生成臨床試驗相關檔案和報告。
  • 資訊檢索:快速查詢和整理與試驗相關的資訊。
  • 知識解釋:對複雜的醫學或藥物資訊進行解釋,方便研究人員和醫生理解。

成熟度評估: 大語言模型在藥物研發的應用

圖片

圖示:下游任務中的 LLM 成熟度評估。這張圖表展示了兩種型別的大語言模型的應用成熟度:科學大語言模型(Specialized LMs)和一般大語言模型(General LMs),分別在理解疾病機制、藥物發現和臨床試驗中的應用情況。應用成熟度分為四個等級:新生期、進展期、成熟期以及不適用(N/A)。(來源:論文)

不適用(Not Applicable):

該類大語言模型(LLM)的應用不適合或與給定的下游任務無關。在這種情況下,LLM的正規化不被認為是有效或相關的工具。

新生期(Nascent):

該類大語言模型的正規化已被初步應用於任務,通常是在計算機模擬環境(in silico)中,但缺乏透過實際實驗驗證的支援。此階段的應用更多是理論上的或初步探索,尚未經過現實場景中的測試。

進展期(Advanced):

該類大語言模型的應用已經超越了理論,經過了實際場景中的實驗驗證。這些實驗結果表明,LLM 在現實中可以在特定的任務中起到一定的作用,但可能還未廣泛部署。

成熟期(Matured):

該類大語言模型的應用已被整合到實際的工作環境中,如醫院或製藥公司,且有明確證據表明其在這些環境中的有效性和實用性。在這個階段,LLM 已被廣泛使用,併產生了顯著的實際成果。

理解疾病機制(Understanding Diseases Mechanism)

基因組分析(Genomics Analysis)、轉錄組分析(Transcriptomics Analysis)、蛋白質靶點分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis):

  • 基因組分析(Genomics Analysis)、轉錄組分析(Transcriptomics Analysis)主要還處於早期。
  • 蛋白質靶點分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis)已經處於較為成熟的階段。

藥物發現(Drug Discovery)

化學實驗(Chemistry Experiment)、計算機模擬(In-silico Simulation)、ADMET 預測(ADMET Prediction)、先導最佳化(Lead Optimization):

兩種模型在藥物發現的各個環節中的成熟度也大多為進展期。其中,計算機模擬和ADMET預測的進展較快,有潛力進一步推動藥物開發。

臨床試驗(Clinical Trial)

臨床試驗實踐(Clinical Trial Practice)、患者結果預測(Patient Outcome Prediction)

大語言模型在這些任務上都已經被實際應用。

未來方向

未來大語言模型(LLM)在藥物發現和開發中的應用方向集中在九個關鍵領域的改進上。

首先,需要加強LLM對生物學知識的整合,包括對分子生成、臨床試驗資料以及科學術語的準確理解和操作。

其次,需要解決倫理、隱私及模型誤用的問題,確保資料的安全性並防止潛在的濫用。

此外,還需關注公平性和偏見問題,避免模型在不同群體中的不平等表現。

其他方面的改進包括解決 LLM 生成虛假資訊(即「幻覺」)的挑戰,提升多模態處理能力,擴充套件上下文視窗以應對海量生物資料,以及增強對時空資料的理解,特別是在分子動力學模擬等領域。

最後,整合專業化 LLM 和通用 LLM 的能力,以實現更精確的科學任務處理與廣泛的使用者互動,推動藥物研發的自動化與高效化。

相關文章