編輯丨&
生命的誕生充滿謎團。從第一個蛋白質分子出現,再到首個細胞完成了自己的分裂。現在的奇蹟來自於一個個鮮活的細胞聚合體。
而現在,隨著人工智慧的發展,AI 虛擬細胞(AIVC)的建立也逐漸從無走到有。為了能更好的瞭解生命的運作方式與疾病的發病原理,AIVC 成為了當前熱門且極有潛力的探索方向。
雖然,細胞的屬性與行為無不在挑戰物理與計算建模的極限,其中動態和適應系統所蘊含的複雜行為讓整個細胞內部對於擾動的反應處於截然不同的反應狀態。
現有的細胞模型通常是基於規則,並將有關潛在生物學機制的假設與來自觀察資料的引數相結合。這通常依賴於明確定義的數學或計算方法,不同的複雜程度涵蓋了細胞生物學的不同方面。
來自史丹佛大學的研究人員們呼籲,現在正是利用 AI 來創造第一個 AIVC 的時候。他們的聲音以「How to build the virtual cell with artificial intelligence: Priorities and opportunities」為題,於 2024 年 12 月 12 日釋出在《Cell》。
對人類細胞進行建模可以被認為是生物學的聖盃。團隊中,一位教授如此形容道。AI 提供了直接從資料中學習的能力,並超越假設和直覺來發現複雜生物系統的新興特性。
AIVC
從實驗上講,測量技術吞吐量的指數級增長導致不同細胞和組織系統內和之間收集了大型且不斷增長的參考資料集。在過去幾年中,資料以及將這些測量與系統擾動耦合的能力每 6 個月翻一番。
在計算方面,AI 的併發進步增強了我們直接從資料中學習模式和過程的能力,而無需明確的規則或人工註釋。
AI 中的最新建模方法提供了表示和推理工具,這些工具滿足預測、生成和可查詢的三重奏,是推進生物學研究和理解的關鍵實用程式。透過建立這些特性,現在有方法來開發一個完全由資料驅動的基於神經網路的 AIVC 表示。
它可以透過實現快節奏的計算機研究,以及計算方法和驗證性溼實驗室實驗之間的強大橋樑來加速生物醫學的研究。
AIVC 的建立將開啟生物學高保真模擬的新時代。將透過改變生成假設和確定優先順序的方式,使生物學家能夠跨越一個大大擴充套件的範圍,更好地適應生物學的巨大尺度,從而賦予實驗者和理論家權力。
儘管細胞模型可能並不總是直接識別機制關係,但他們可以被視為有效縮小機制假設並搜尋空間的工具,從而加速發現細胞功能背後的潛在因素。
虛擬細胞路上的重大挑戰
生物學中數量激增的基礎模型執行了本視角中概述的虛擬單元功能的子集。生物學非常複雜:它在不同的尺度、不同的環境中運作,並用不同的模式進行測量。AIVC 模型必須在所有這些軸上保持一致。
AIVC 模型最終將根據大型基礎模型透過為生物過程提供新的見解或加速科學過程來擴充套件我們對生物學的理解的能力進行評判。可操作的模型輸出是設計經濟實惠且高效的驗證實驗的高實用性,是初始實際使用的關鍵。
AIVC 的成功開發需要跨學科的合作,而生成反映人類多樣性的大型資料集是非常艱難的。且先不說在使用 AIVC 的時候,方式方法是否合乎道德或者透明,亦或者資料是否會被偽造造成模型汙染。
AIVC 協作開發的一個基本問題是應該收集哪些資料和模式以實現跨生物背景和規模的泛化。
這些資料需要涵蓋不同物種、領域和模式的生物學廣度,代表生命的異質性,同時保持足夠的深度以區分真實訊號和噪聲。資料生成的一個關鍵方面是同時測量時間和物理尺度,同時還允許對系統進行擾動。
AIVC 將是一個多尺度基礎模型,它在每個物理尺度上學習生物實體的不同表示。每種表示都普遍適用於特定類別的生物實體。這種抽象允許虛擬單元在這個通用框架內無縫發展和整合新資料。無論是來自新模式還是來自分散式外源。
用於構建的 AI 技術
AIVC 將連線許多不同的神經網路架構。儘管這些架構可能不是專門為生物應用而設計的,但它們在與特定的生物模式和歸納偏差匹配時都得到了成功的結果。
擴散模型是一類生成式深度學習模型,最近因其能夠在各個領域生成高質量、多樣化的樣本而受到關注。基於擴散模型架構,流匹配方法等方法也可以對隨時間推移的分佈演變進行建模。
擴散和流匹配模型學習和複製複雜分佈的能力,結合流匹配方法的時間和空間建模功能,使其特別適合涉及生物系統典型高維複雜資料結構的任務。
AIVC 的起點是模擬中心法則的三種型別的分子:DNA、RNA 和蛋白質。這些都可以表示為字元序列核苷酸或氨基酸。此類序列資料特別適合最初為自然語言處理開發的 AI 方法,例如大型語言模型(LLM)。
下一個抽象級別對單個細胞狀態進行建模。由於細胞功能以細胞中形成的分子相互作用和訊號網路為基礎,因此可以使用分子和其他特徵的表示來構建細胞 UR,描述分子成分的組織和豐度。
從模型架構的角度來看,transformer 或利用卷積神經網路(CNN)的模型廣泛適用於生物影像,跨多個成像通道進行建模,捕捉不同的生物特徵。隨著 AIVC 模型的複雜性增加,對細胞器和無膜隔室進行建模也至關重要。
從單細胞到多細胞的建模,需要走的路會更長,此處不做過多贅述。
值得樂觀的前景
遺傳學和基因組學界已經建立了許多大型參考資料集,而藉由這些專案,可以使用大量參考資料來訓練機器學習模型。雖然這些努力並未發展完善,但它們也促進了一項新的平行努力:建立細胞生物學的虛擬模擬,這是一種科學探究的新流程。
因此,AIVC 有可能徹底改變科學過程,從而在生物醫學研究、個性化醫學、藥物發現、細胞工程和可程式設計生物學方面取得未來突破。作為虛擬實驗室,其可以促進模擬實驗資料與現實實驗結果的無縫銜接。
團隊堅定不移地倡導開放科學方法的作用,在開放科學方法中,科學界樂於共享資料、模型和基準,將發現和見解置於情境中,並營造持續改進的氛圍。他們歡迎並鼓勵各部門和領域的所有利益相關者參與這項工作。
在龐大的科學背景與共同目標的促成下,他們相信,人類正邁向科學發展的新方向。
原文連結:https://www.cell.com/cell/fulltext/S0092-8674(24)01332-1