編輯 | 蘿蔔皮
OpenAI 的 GPT 和 Meta AI 的 Llama 等大型語言模型 (LLM),因其在化學資訊學領域的潛力而日益受到認可,特別是在理解簡化分子輸入行輸入系統(SMILES)方面。這些 LLM 還能夠將 SMILES 字串解碼為向量表示。
加拿大溫莎大學(University of Windsor)的研究人員比較了 GPT 和 Llama 與 SMILES 上的預訓練模型在下游任務中嵌入 SMILES 字串的效能,重點關注兩個關鍵應用:分子特性預測和藥物-藥物相互作用預測。
該研究以「Can large language models understand molecules?」為題,於 2024 年 6 月 25 日釋出在《BMC Bioinformatics》。
分子嵌入是藥物發現中的重要任務,在分子性質預測、藥物-靶標相互作用(DTI)預測和藥物-藥物相互作用(DDI)預測等相關任務中得到廣泛應用。
分子嵌入技術可以從編碼分子結構連線資訊的分子圖或其結構的線註釋中學習特徵,例如學界比較流行的 SMILES 表示。
透過 SMILES 字串進行分子嵌入不斷髮展並與語言建模的進步同步,從靜態詞嵌入開始,到情境化的預訓練模型。這些嵌入技術旨在以緊湊的數值表示形式捕獲相關的結構和化學資訊。
基本假設認為結構相似的分子行為方式相似。這使得機器學習演算法能夠處理和分析分子結構,以進行屬性預測和藥物發現任務。
隨著 LLM 的突破,一個突出的問題是 LLM 是否能夠理解分子並根據分子資料進行推斷?
更具體地說,LLM 能否產生高質量的語義表示?
溫莎大學的 Shaghayegh Sadeghi、Alioune Ngom Jianguo Lu 等人進一步探索了這些模型有效嵌入 SMILES 的能力。目前,這一能力尚未得到充分探索,部分原因可能是 API 呼叫的成本。
研究人員發現,使用 Llama 生成的 SMILES 嵌入在分子特性和 DDI 預測任務中的表現都優於 GPT 生成的 SMILES 嵌入。
圖示:分類和迴歸任務的結果。(來源:論文)
值得注意的是,基於 Llama 的 SMILES 嵌入在分子預測任務中表現出與 SMILES 上的預訓練模型相當的結果,並且在 DDI 預測任務中優於預訓練模型。
因此該團隊得到以下幾個結論:
總之,這項研究凸顯了 GPT 和 Llama 等 LLM 在分子嵌入方面的潛力。
該團隊特別推薦 Llama 模型而不是 GPT,因為它們在從 SMILES 字串生成分子嵌入方面具有卓越的效能。這些發現表明 Llama 在預測分子特性和藥物相互作用方面可能特別有效。
雖然 Llama 和 GPT 等模型並非專門為 SMILES 字串嵌入而設計(與 ChemBERTa 和 MolFormer-XL 等專業模型不同),但它們仍然表現出了競爭力。該工作為將來改進 LLM 分子嵌入奠定了基礎。
未來,該團隊將側重於提高由自然語言句子嵌入技術啟發而來的 LLM 分子嵌入的質量,例如對 Llama 標記化的微調和修改。
GitHub:https://github.com/sshaghayeghs/LLaMA-VS-GPT
論文連結:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05847-x