22個任務超越SOTA,43個任務媲美SOTA,Google推出醫學治療通用大模型

ScienceAI發表於2024-06-12

圖片

編輯 | 蘿蔔皮

醫生和科學家如果想開發一種新的療法,這將是一個漫長且昂貴的任務,需要滿足許多不同的標準,而能夠加快這一過程的人工智慧模型將是無價之寶。

然而,目前大多數人工智慧方法只能解決一組定義狹窄的任務,通常侷限於特定領域。

為了彌補這一差距,Google 團隊提出了 Tx-LLM,這是一種通用大型語言模型(LLM),由 PaLM-2 微調而成,可編碼有關各種治療方式的知識。

僅使用一組權重,Tx-LLM 可同時處理與自由文字交織的各種化學或生物實體(小分子、蛋白質、核酸、細胞系、疾病)資訊,使其能夠預測廣泛的相關屬性。在 66 個任務中的 43 個任務上實現了與最先進 (SOTA) 技術相媲美的效能,並在 22 個任務中超越了 SOTA。

其中,Tx-LLM 尤其強大,在將分子 SMILES 表示與文字(例如細胞系名稱或疾病名稱)相結合的任務中,其平均表現優於同類最佳。

圖片

該研究以「Tx-LLM: A Large Language Model for Therapeutics」為題,於 2024 年 6 月 10 日釋出在 arXiv 預印平臺。

圖片

藥物開發是一個充滿風險的漫長過程,據統計,90% 的候選藥物在臨床試驗階段會失敗,而那些成功的藥物從研發到獲批上市通常需要耗費 10 至 15 年時間及 10 億至 20 億美元的資金。

一個有效的治療藥物必須滿足多重標準,包括與目標病灶有效互動、具備良好的藥效和臨床療效,同時確保無毒性和具有理想的藥物特性,如溶解性、滲透性以及合適的藥代動力學等。

在臨床試驗中,意外的非靶向效應或藥物間相互作用可能會抵消原本有前景的候選藥物的效果。因此,藥物研發面臨著巨大的挑戰。

關於 Tx-LLM 如何工作

Tx-LLM,一種專為治療學設計的大型語言模型,旨在加速藥物發現流程。該模型由 PaLM-2 訓練而成,透過處理包含 709 個資料集的 TxT 集合,覆蓋藥物發現管線中的 66 項任務,能夠編碼關於多種治療方式的知識。這些資料集的中位數大小為 11,000 條資料點。Tx-LLM 排除了少量 TDC 資料集。

圖片

圖示:Tx-LLM 概述。(來源:論文)

TxT 資料集的每個組成部分都設計成包含四部分的文字提示:指令、上下文、問題和答案。每條資料的指令是一個簡短的句子,描述了要執行的具體任務,例如「回答有關藥物屬性的問題」。

對於每一個資料集,研究者精心構造了上下文,即提供了額外的自由文字描述,用於將問題置於相關生物化學背景中。上下文通常由 2-3 句話組成,來源自 TDC 資料集的描述,並根據主題的文獻檢索進行了人工補充。對於描述特定實驗條件的專門測試,如 ToxCast,上下文的額外資訊來源於公開的測試描述。

資料集中的問題是一個簡潔的詢問,明確指出了所詢問的特定屬性,如「以下分子是否能穿過血腦屏障?」問題中穿插了基於文字的治療劑表示。答案的格式因任務型別而異。

TxT資料集主要分為三類:二元分類問題,即預測治療劑的單一屬性,給出兩種可能的答案,如藥物是否有毒性;迴歸問題,預測治療劑在連續尺度上的單一屬性,例如藥物與目標的結合親和力。

為了適應基於 token 而非浮點數表示的語言模型,迴歸任務的標籤被均勻地劃分為 0 到 1000 之間的區間,指示 Tx-LLM 預測區間標籤。在評估時,預測的區間標籤會被轉換回原始的數值標籤空間。整個設計確保了 Tx-LLM 能夠全面地處理藥物發現流程中的多樣化任務。

Tx-LLM 的穩健效能

圖片

圖示:Tx-LLM 可能對端到端治療發展有效。(來源:論文)

Tx-LLM 使用單一權重集同時處理多樣化的化學和生物實體(小分子、蛋白質、核酸、細胞系、疾病)與自由文字的組合,預測這些實體的廣泛相關屬性。在 66 項任務中,Tx-LLM 在 43 項任務上達到了與最先進水平相當的表現,在 22 項任務上甚至超越了現有最佳模型。

圖片

圖示:Tx-LLM 與 SOTA 的效能比較。(來源:論文)

特別是在結合分子 SMILES 表示與文字(如細胞系名稱或疾病名稱)的任務上,Tx-LLM 表現尤為突出,這可能得益於預訓練期間學到的上下文資訊。

此外,研究人員還發現了不同型別藥物任務之間存在正面的知識遷移,例如小分子和蛋白質任務間的相互促進。這些結果表明,Tx-LLM 是朝著將生物化學知識編碼進大型語言模型方向邁出的重要一步,未來有可能在整個藥物發現和開發過程中扮演關鍵角色。

論文連結:https://arxiv.org/abs/2406.06316

相關內容:https://x.com/arankomatsuzaki/status/1800372459344114029

相關文章