首個!四大高校聯合推出藥物研發大語言模型Y-Mol,效能全面領先LLaMA2

超神经HyperAI發表於2024-11-07

以 ChatGPT、ChatGLM 和 LLaMA 等為代表的大語言模型已成為人們探索未知世界的有力工具,這些擁有數十億引數的模型,透過大規模文字語料庫的精心訓練,在生成文字和理解上下文方面展現出強大的能力。然而,這些模型大多在一般任務中表現出色,在某些特定領域,尤其是藥物研發領域,卻面臨著不小的挑戰。

與自然語言處理領域不同,藥物研發領域缺乏統一的標準正規化,研發過程複雜且成本高昂。此外,它還涉及計算化學、結構生物學和生物資訊學等多個學科,相關資料難以獲取,且藥物相關實體之間的互動資料需要精細的領域知識才能進行標註,這些因素共同限制了大語言模型在藥物研發領域的應用。

對此,湖南大學、中南大學、湖南師範大學、湘潭大學的研究團隊聯合提出了一種多尺度生物醫學知識指導的大語言模型 Y-Mol。Y-Mol 是一種自迴歸的序列到序列模型,它能夠在不同的文字語料庫和指令上進行微調,大大增強了模型在藥物研發方面的效能與潛力,這是大語言模型在藥物研發領域的一次全新突破。

該研究以「Y-Mol: A Multiscale Biomedical Knowledge-Guided Large Language Model for Drug Development」為題,已在 arxiv 發表預印本。

研究亮點:

  • Y-Mol 是首個為藥物研發構建的大語言模型典範
  • Y-Mol 透過整合多尺度生物醫學知識,構建了一個資訊豐富的指令資料集
  • Y-Mol 在藥物-藥物相互作用、藥物-靶標相互作用、分子屬性預測等方面表現優異,在各種藥物研發任務的理解和通用性方面表現出強大的能力

在這裡插入圖片描述

論文地址:
https://doi.org/10.48550/arXiv.2410.11550

開源專案「awesome-ai4s」彙集了百餘篇 AI4S 論文解讀,並提供海量資料集與工具:

https://github.com/hyperai/awesome-ai4s

充分挖掘兩大類資料集,構建全面的生物醫學語料庫

在構建 Y-Mol 的預訓練資料集方面,該研究挑選了兩種型別的資料集:來自生物醫學 PubMed 出版物的文字語料庫;基於生物醫學知識圖譜構建的監督指令,以及從專家模型中提取的推理資料。

為了深入挖掘出版物中豐富的生物醫學知識,該研究從線上出版平臺(如 PubMed)中提取並預處理了超過 3,300 萬份涵蓋多個學科的出版物。如下圖 A 所示,研究人員從這些出版物中提取了可見的摘要和簡介,將其作為生物醫學文字資料 (Reconstructed Text),確保語料庫的質量和相關性。

在這裡插入圖片描述

出版物的收集

為了從生物醫學知識庫中高效提取領域知識,該研究將知識庫中的事實轉化為自然語言提示。如下圖 B 所示,該研究認為子圖中的每個推理鏈 (Reasoning Chains) 都具有明確的關係語義,因此提取了每個連貫的路徑 (Pathway),並使用精心設計的模板將其轉換為自然語言描述,作為提示上下文。然後,該研究將這些構建的上下文與相應的問題結合,輸入到 Y-Mol 中,以輸出有監督的答案。

在這裡插入圖片描述

知識圖譜的說明

此外,為了獲取基於藥物屬性和領域知識的大規模指令,該研究利用現有小模型的專家合成資料構建指令,將藥物知識譜提煉到 Y-Mol,最終,該研究彙集了 1,120 萬個語料庫條目和 230 萬個精心設計的指令。

如下圖 C 所示,針對給定的藥物分子,為了提取更全面的分子性質 (Molecular Properties),該研究彙集了一系列先進的分子工具和計算模型,如 ADMETlab、RDKit、TDC 和 DrugBAN。這些工具和模型從公開可用的資料集中提取了具有不同特性的分子資訊,包括 QED、SAs、LogP、毒性 (Toxicity)、吸收性 (Absorbency) 以及亞結構 (Substructures) 等。透過這種方式,該研究可以持續整合最新的模型和工具,並利用它們的預測資料來訓練模型,從而使 Y-Mol 實時進化,保持其在藥物研發領域的領先地位。

在這裡插入圖片描述

專家合成資料的說明

最後,如下圖所示,該研究展示了 Y-Mol 在預訓練和監督微調階段,針對不同任務的資料分佈情況。在推理能力的評估方面,為了全面測試 Y-Mol 在藥物-靶標相互作用 (DTI) 預測和藥物-藥物相互作用 (DDI) 預測方面的效能,研究團隊選用了業界廣泛認可的基準資料集 DrugBank 和 DrugCentral 來進行 DTI 預測。

在這裡插入圖片描述

Y-Mol 在不同任務的資料分佈

同時,為了對 DDI 預測的效能進行評估,研究者們採用了 Ryu 和 Deng 提供的資料集。這些評估方法經過精心選擇,確保 Y-Mol 能在藥物研發領域的行業標準下得到公正和全面的檢驗,證明其有效性。

Ryu’s dataset: https://doi.org/10.1073/pnas.1803294115

Deng’s dataset: https://doi.org/10.1093/bioinformatics/btaa501

Y-Mol:基於 LLaMA2-7b,專用於藥物研發

該研究選用了 LLaMA2-7b 作為基礎的大語言模型,進而構建一個專門用於藥物研發的高階訓練和推理框架——Y-Mol。如下圖所示,Y-Mol 的開發分為兩個關鍵階段:

首先,Y-Mol 在生物醫學出版物的大規模語料庫上進行預訓練,透過自監督預訓練 (self-supervised pretrain) 的方式微調 LLaMA2,使 Y-Mol 能夠對藥物研發的背景知識有一個基本的掌握。接著,進一步監督 LLaMA2,利用藥物相關領域知識和專家合成資料進行微調 (finetuning)。這一過程將大量藥物相關資訊輸入 Y-Mol,增強了模型對藥物研發流程中相互作用機制的理解。

在這裡插入圖片描述

Y-Mol 的架構

該研究精心設計了多樣化的指令集,對 Y-Mol 進行細緻的微調,這些指令包括了分子文字對的說明 (Instructions from Molecule-text Pairs),以及從藥物資料庫中提取的描述 (Descriptions from drug databases),這些描述以自然語言的形式呈現了藥物的屬性、結構和功能,蘊含了豐富的語義資訊,有助於加強人類與大語言模型在藥物實體感知上的一致性。

如下圖所示,該研究採用生成的指令 (Instructions) 作為監督學習的輸入 (input),並將其送入 Y-Mol 中。具體來說,將構建的提示上下文 (prompt contexts) 和問題輸入到 Y-Mol 中,並使用這些構建的答案來監督模型生成的輸出。

在這裡插入圖片描述

基於設計指令的 Y-Mol 監督微調過程

在根據這些生成的指令對 Y-Mol 進行細緻的微調之後,研究人員將其應用於一系列下游任務,涵蓋了從先導化合物的發現 (Lead compund Discovery) 到臨床前和臨床預測等 (Clinic Predictions) 多個環節。透過這種監督微調 (Supervised Fine-tuning) 的方法,Y-Mol 能夠更準確地理解和處理藥物研發中的複雜問題,為計算機輔助藥物研發提供了一個強大的工具。

研究結果:Y-Mol 具備最優預測效能

為了全面驗證 Y-Mol 在藥物研發領域的有效性,該研究精心設計了一系列覆蓋先導化合物發現 (lead compound discovery)、臨床前研究 (pre-clinic) 和臨床預測 (clinic predictions) 等不同階段的任務。具體來說,不同的關鍵任務如下:(1) 用於先導化合物發現的虛擬篩選、藥物設計;(2) 臨床前階段對已發現先導化合物的物理和化學性質進行預測;(3) 預測臨床階段潛在的藥物不良事件。

在虛擬篩選中,識別未知的藥物-靶標相互作用對是至關重要的。如下表所示,相較於 LLaMA2,Y-Mol 在 DrugBank 和 DrugCentral 資料集上的 AUC 得分分別提升了 5.02% 和 4.13%。這表明,Y-Mol 在多尺度資料來源的 DTI 預測上表現優異,證明了其在虛擬篩選中的優越效能。

在這裡插入圖片描述

4 個資料集的 DTI 和 DDI 預測效能比較

在藥物設計中,為了驗證 Y-Mol 在發現新先導化合物方面的效能,該研究還設計了一個針對特定條件產生有效化合物的任務,即給定一個目標條件和描述性查詢,評估 Y-Mol 能否從上下文資訊中精準生成對應的 SMILES 序列分子。

如下表所示,該研究引入 Valid、Unique、Novelty、Diversity 等標準指標,對 BBB、LogP 等不同的單一目標 (Single Objective) 進行預測。結果表明,Y-Mol 整體效能更好,相比之下,只有 LLaMA2-7b 模型的結構域適應能力表現不佳,無法生成有效的分子。同時,該研究還同時測試了多重目標 (Multiple Objective) 下 Y-Mol 的藥物設計效能。結果表明,Y-Mol 在這種情況下也表現良好。

在這裡插入圖片描述

Y-Mol 在藥物設計中的效能

在分子屬性預測中,如下圖所示,Y-Mol 在所有任務中都展現出比 LLaMA2 更低的 R² 分數,這表明 Y-Mol 在預測理化屬性方面具有更強的泛化能力。

在這裡插入圖片描述

對 Y-Mol 的理化性質進行了效能預測

在藥物研發的臨床階段,預測潛在的藥物-藥物相互作用是確保藥物安全使用的關鍵。如下圖所示,Y-Mol 在識別潛在的藥物相互作用任務方面表現出色 (DDI)。

在這裡插入圖片描述

4 個資料集的 DTI 和 DDI 預測效能比較

如下圖所示,Y-Mol 設計的藥物有效地滿足了在查詢中 (query) 提出的約束條件。同樣地,Y-Mol 能夠準確地預測給定分子 LogD7.4,且預測結果與實際值非常接近,這證明了 Y-Mol 在解決藥物研發任務方面的有效性。

在這裡插入圖片描述

藥物設計與分子理化性質預測的案例研究

AI 技術:藥物研發領域的新引擎

事實上,在藥物研發的漫長旅程中,科學家們一直在尋找能夠加速這一過程的新技術。近年來,AI 技術在這一領域展現出了巨大的應用潛力,它們不僅能夠深入理解疾病機制,還能在藥物發現和臨床試驗等關鍵階段發揮重要作用。

在企業界,一些公司已經在 AI 藥物研發方面取得了顯著成果。例如,AI 藥物研發公司 Insilico Medicine 在今年初宣佈,他們發現了一種全新機制的用於治療特發性肺纖維化的臨床候選新藥,該藥物已經透過了多次人類細胞和動物模型實驗驗證。此外,華為雲與中國科學院上海藥物研究所合作,推出了盤古藥物分子大模型,該模型能夠實現針對小分子藥物全流程的人工智慧輔助藥物設計,提高藥物研發的效率和準確性。

在科研領域,本文研究的作者之一,湖南大學曾湘祥教授團隊也曾設計了一款多肽序列大語言模型,透過逐步新增計算和篩選條件,對模型進行訓練。僅用 3 個月時間,該模型便成功設計併合成了 29 種潛在的抗菌肽,其中 26 種顯示出廣譜抗菌活性。在小鼠實驗中,有 3 種抗菌肽表現出與 FDA 批准的抗生素相當抗菌效果,且在長達 25 天的連續培養和監測中未觀察到明顯的耐藥性產生。這一成果已被《Nature Communications》正式接收。

論文連結:
https://www.nature.com/articles/s41467-024-51933-2

此外,本文研究的另一作者,中南大學曹東昇教授聯合浙江大學的侯廷軍教授和謝昌諭教授,前不久也共同開發了分子最佳化工具 Prompt-MolOpt。該演算法利用提示學習的訓練策略,實現了零樣本學習和少樣本學習在多性質最佳化中的應用。

論文連結:
https://www.nature.com/articles/s42256-024-00916-5

從深入理解疾病機制到加速藥物發現,再到最佳化臨床試驗設計,AI 技術正在成為藥物研發的新引擎,隨著技術的不斷進步,它將在未來的醫藥研究中發揮出愈發關鍵的作用。

相關文章