編輯 | 綠蘿
世界人口老齡化、慢性病和傳染病負擔日益加重,迫切需要安全有效的藥物來滿足全球數十億人的醫療需求。然而,發現一種新藥並將其推向市場是一個漫長、艱鉅且昂貴的過程。
長期以來,人工智慧(AI)一直被認為能夠克服這些障礙,因為它能夠分析大量資料、發現模式和關係,並預測效果。但是,儘管 AI 具有巨大的潛力,但 AI 尚未兌現改變藥物發現的承諾。
現在,由哈佛醫學院生物醫學資訊學家 Marinka Zitnik 領導的一個多機構團隊推出了一個平臺,旨在透過開發更真實的資料集和更高保真度的演算法,來最佳化 AI 驅動的藥物發現。
Therapeutics Data Commons(TDC)——是一個開放訪問平臺,一方面充當電腦科學家和機器學習研究人員之間的橋樑,另一方面充當生物醫學研究人員、生物化學家、臨床研究人員和藥物設計師之間的橋樑。
該平臺相關文章以《Artifcial intelligence foundation for therapeutic science》為題,釋出在《Nature Chemical Biology》 上。
論文連結:https://www.nature.com/articles/s41589-022-01131-2
堅實的基礎,現代資料管理,人工智慧基礎設施
為了建立用於藥物發現和開發的開放科學機器學習基礎,該研究團隊建立了 TDC,這是一種跨治療模式和發現階段訪問和評估 AI 方法的資源。該平臺在藥物開發的所有階段,從化合物鑑定到臨床試驗藥物效能,為多種治療方式(包括小分子藥物、抗體以及細胞和基因療法)提供資料集管理和演算法設計以及效能評估。
TDC 的核心是 AI 可解決任務、AI 就緒資料集和精選基準的集合。到目前為止,TDC 包含 66 個 AI-ready 資料集,跨越總共 15,919,332 個資料點,分佈在藥物發現的 22 個問題上。TDC 中的任務和資料集涵蓋了廣泛的治療產品(15 個小分子任務,包括藥物反應和協同預測;8 個大分子任務,包括互補位和表位預測;2 個細胞和基因治療任務,包括 CRISPR 修復預測)跨越發現的所有階段(5 個目標發現任務,例如識別與疾病相關的治療目標;13 個活動建模任務,例如量子力學能量預測;6 個藥物功效和安全性任務,例如分子生成;和 4 個製造任務,如產量結果預測)。這些資料集包含多種生物和化學實體,包括 4,264,939 種化合物、34,314 種基因、3,656 種抗體、3,983 種抗原、59,951 種肽、225 種主要組織相容性複合物、7,095 種疾病、1,010 種細胞系、1,521 種嚮導 RNA、3,465 種 microRNA 和 1,994,623 種化學反應。TDC 中的資料集大小從 242 到 4,649,441 個資料點不等,表明需要 AI 能力在小型和大型資料集上學習。
圖 1:Therapeutics Data Commons 概述。(來源:論文)
TDC 中的所有資料集都是 AI 就緒的,這意味著輸入特徵被處理成機器可讀的格式,這樣它們就可以直接用作訓練 AI 模型的輸入。TDC 被組織成一個三層的分層系統(圖 2a),以提供整合資源並在新藥物發現應用程式和資料可用時容納它們(圖 2b)。TDC 包含支援 AI 方法開發的資料處理和演算法功能(圖 2c)。它提供了五種策略,將資料集拆分為訓練集以訓練 AI 模型,驗證集以選擇模型超引數,測試集以評估模型效能並評估模型是否可以泛化到訓練期間未見的資料點。此外,TDC 實施了 23 種效能評估策略,以相互比較不同的方法,瞭解它們的失敗和成功,並評估預測是否可以推廣到全新的場景。
圖 2:TDC 中的 AI 就緒資料集、機器學習任務和基準。(來源:論文)
令人信服的應用
跨學科的研究人員可以將 TDC 用於眾多應用。例如,負責先導化合物最佳化的生物化學家可以使用 TDC 中的模型,透過提高有效性、降低毒性或增加初始先導化合物的吸收來尋找有前途的化合物。或者,再舉一個例子,生物學家將進行高通量虛擬篩選,以在大型搜尋空間中找到與目標蛋白質具有親和力的高效能化合物。TDC 還為分子對接提供了 oracles,可以指導生成模型探索與初始化學庫中研究的不同的化學空間,從而生成結構多樣的化合物,這些化合物可合成並可能與 DRD3 治療靶點結合。此外,使用大規模計算方法可以實現高階應用,TDC 為其提供了文件和教程。
圖 3 :TDC 的示例用例。
打破治療科學的障礙
TDC 為藥物發現中的 AI 提供基準、方法實施和實施策略。它可以幫助提高可重複性並限制誤解結論和誤用工具的可能性。
實現人工智慧在治療科學中的廣泛應用需要協調一致的社群倡議,以贏得不同科學家群體的信任。TDC 在生化和 AI 科學家之間建立了一個交匯點。這使得從不同的角度和跨越傳統界限和多個學科的各種思維方式來看待人工智慧成為可能。
TDC 中的資源被整合到一個開源軟體包中,該軟體包實現了分析和高效檢索資料集的功能,並提供對 TDC 的程式設計訪問。TDC 不斷更新來自社群的貢獻,可在 https://tdcommons.ai 獲得。
Marinka Zitnik 將這個平臺概念化,現在與麻省理工學院、史丹佛大學、卡內基梅隆大學、佐治亞理工學院、伊利諾伊大學香檳分校和康奈爾大學的研究人員合作領導這項工作。
最近,Zitnik 與 HMNews 討論了 TDC 平臺。
藥物發現的主要挑戰是什麼?人工智慧如何幫助解決這些挑戰?
Zitnik:從頭開發一種既安全又有效的藥物極具挑戰性。平均而言,這需要 11~16 年的時間和 10 ~20 億美元的資金。這是為什麼?
很難及早弄清楚一種最初有希望的化合物在人類患者身上產生的結果是否與它在實驗室中顯示的結果一致。小分子化合物的數量是 10 的 60 次方——但在這個天文數字般巨大的化學空間中,只有一小部分被研究用於具有藥用特性的分子。儘管如此,現有療法對治療疾病的影響令人震驚。我們相信,結合自動化和新資料集的新演算法可以找到更多可以轉化為改善人類健康的分子。
人工智慧演算法可以幫助我們確定這些分子中哪些最有可能成為安全有效的人類療法。這是藥物發現開發面臨的最終問題。我們的願景是,機器學習模型可以幫助篩選和整合大量生化資料,我們可以將這些資料更直接地與分子和遺傳資訊聯絡起來,並最終實現個性化的患者治療結果。
人工智慧離實現這一承諾還有多遠?
Zitnik:我們還沒到那一步。有很多挑戰,但我想說,最大的挑戰是瞭解我們當前演算法的工作情況,以及它們的效能是否可以轉化為現實問題。
當我們透過計算機建模評估新的 AI 模型時,我們是在基準資料集上測試它們。我們越來越多地在出版物中看到這些模型正在實現近乎完美的準確性。如果是這樣,為什麼我們沒有看到機器學習在藥物發現中得到廣泛應用?
這是因為在基準資料集上表現良好與準備好過渡到生物醫學或臨床環境中的實際實施之間存在很大差距。訓練和測試這些模型所依據的資料並不能表明這些模型在實際應用中所面臨的挑戰型別,因此縮小這一差距非常重要。
Therapeutics Data Commons 平臺從何而來?
Zitnik:Therapeutics Data Commons 的目標正是要解決這些挑戰。它作為一端的機器學習社群和另一端的生物醫學社群之間的交匯點。它可以幫助機器學習社群進行演算法創新,並使這些模型更易於轉化為現實場景。
你能解釋一下它是如何運作的嗎?
Zitnik:首先,藥物發現的過程跨越了整個過程,從基於化學和化學生物學資料的最初藥物設計,到基於動物研究資料的臨床前研究,一直到針對人類患者的臨床研究。作為平臺的一部分,我們訓練和評估的機器學習模型使用不同型別的資料來支援所有這些不同階段的開發過程。
例如,支援小分子藥物設計的機器學習模型通常依賴於分子圖的大資料集——化合物的結構及其分子特性。這些模型在已知的化學空間中尋找模式,這些模型將化學結構的一部分與藥物安全性和有效性所必需的化學特性聯絡起來。
一旦訓練了 AI 模型以識別已知化學品子集中的這些指示模式,就可以對其進行部署,並可以在尚未測試的化學品的大量資料集中尋找相同的模式,並預測這些化學品的效能。
為了設計有助於後期藥物發現的模型,我們使用動物研究的資料對它們進行訓練。這些模型經過訓練以尋找將生物資料與人類可能的臨床結果相關聯的模式。
我們還可以詢問一個模型是否可以在與患者資訊相關的化合物中尋找分子特徵,以確定哪個患者子集最有可能對化合物產生反應。
誰是這個平臺的貢獻者和終端使用者?
Zitnik:我們有一個由學生、科學家和專家志願者組成的團隊,他們來自合作大學和行業界,包括波士頓地區的小型初創企業以及美國和歐洲的一些大型製藥公司。電腦科學家和生物醫學研究人員以最先進的機器學習模型,和經過預處理和精選資料集的形式貢獻他們的專業知識,這些資料集以可以釋出並可供他人使用的方式標準化。
因此,該平臺包含可供分析的資料集和機器學習演算法,以及告訴我們機器學習模型在特定資料集上的表現如何的可靠度量。
我們的終端使用者是來自世界各地的研究人員。我們組織網路研討會來展示任何新功能、接收反饋並回答問題。我們提供教程。這種持續的培訓和反饋非常重要。
我們每個月有 4,000 到 5,000 名活躍使用者,其中大部分來自美國、歐洲和亞洲。總體而言,我們的機器學習演算法/資料集包的下載量已超過 65,000 次。我們已經看到超過 160,000 次協調、標準化資料集的下載。人數在增加,我們希望他們會繼續增加。
Therapeutics Data Commons 的長期目標是什麼?
Zitnik:我們的使命是在兩個方面支援 AI 藥物發現。首先,在從化合物識別、藥物設計到臨床研究的藥物發現和開發的所有階段,對機器學習方法進行設計和測試。
其次,支援跨多種治療方式設計和驗證機器學習演算法,尤其是較新的治療方式,包括生物製品、疫苗、抗體、mRNA 藥物、蛋白質療法和基因療法。
機器學習有巨大的機會為這些新療法做出貢獻,我們還沒有看到人工智慧在這些領域的使用達到我們在小分子研究中看到的程度,而今天的重點是小分子研究。這種差距主要是由於缺乏用於這些新型治療方式的標準化 AI 就緒資料集,我們希望透過 Therapeutics Data Commons 解決這個問題。
是什麼激發了您對這項工作的興趣?
Zitnik:我一直對理解和建模複雜系統之間的互動很感興趣,複雜系統是具有多個元件的系統,這些元件以非依賴的方式相互互動。事實證明,根據定義,治療科學中的許多問題正是這樣的複雜系統。
我們有一個蛋白質目標,它是一個複雜的三維結構,我們有一個小分子化合物,它是原子和這些原子之間鍵的複雜圖形,然後我們有一個病人,其描述和健康狀況以多尺度表示的形式給出。這是一個典型的複雜系統問題,我真的很喜歡尋找標準化和“馴服”這些複雜互動的方法。
治療科學充滿了可以從機器學習中受益的成熟問題。這就是我們所追求的。
參考內容:https://phys.org/news/2022-11-ai-drugs.html