編輯丨toileter
在如今的 AI for Biology 社群裡,當今的詞彙是基礎模型。每個人都希望將更多事物的更大的資料放入更大的模型中進行計算測試。
虛擬細胞模型將使研究者們能夠預測細胞狀態如何響應化學擾動而產生變化。蛋白質語言模型將使他們能夠識別更好的酶來降解塑膠或具有更多類似藥物特性的蛋白質結合劑。這些層位於越來越容易獲得的基因組資料之上。由此帶來的將會是光明的未來。
不過 FutureHouse 的聯合創始人兼執行長 Sam Rodriques 認為,真正的生物學看起來有所不同。像是在NeurlPs (一個關於神經資訊處理系統的會議)這樣的 AI 生物學會議上,真正的生物學家並不多。他上個月在不列顛哥倫比亞省溫哥華參加了該活動。
將這些推動生物發現的基礎模型的夢想與《Nature》與《Science》的最新目錄進行對比:
- 一個長的非編碼 eRNA 形成 R 環來塑造情緒體驗誘導的行為適應——作者在小鼠中發現了一種 IncRNA,該 IncRNA 響應神經元活動而表達,該神經元活動調節染色質的 3D 結構,從而啟用參與神經元可塑性的基因。作者進一步確定,這種 IncRNA 對於某些形式的學習是必不可少的。
論文連結:https://www.science.org/doi/10.1126/science.adp1562
- 癌細胞損害單核細胞介導的 T 細胞刺激以逃避免疫——作者發現小鼠黑色素瘤細胞分泌一種脂質代謝物,阻止單核細胞啟用 CD8+T細胞。
論文連結:https://www.nature.com/articles/s41586-024-08257-4
- 鈣調磷酸酶和 PKA 之間的突觸後競爭調節哺乳動物的睡眠-覺醒週期——透過生成鼠敲除系,作者確定了對調節睡眠-覺醒週期至關重要的磷酸酶和激酶,並表明它作透過調節興奮性突觸後位點的蛋白質發揮作用。
論文連結:https://www.nature.com/articles/s41586-024-08132-2
Sam 坦言,他很難想象這些發現怎麼會從多模態生物學基礎模型中掉出來。這並不是一個稻草人的論點。當然,基礎模型可能會從第一篇論文中識別出 IncRNA,但無法確定這樣的基礎模型如何將其與染色質重塑聯絡起來。
具有足夠資料的多模式基礎模型也有可能識別與接受某些型別治療的黑色素瘤細胞相關的代謝變化,但 Sam 不明白該基礎模型如何識別這些代謝物在防止 CD8+T 細胞活化方面的作用。事實上,他不認為今天正在開發的任何基礎模型都能夠產生這些論文中描述的那種豐富的新生物學見解。然而,這些見解正是新療法的來源。
Sam 認為,問題在於機器學習模型在結構化資料上工作得非常好,因此所有正在構建的基礎模型都是高度結構化的。以蛋白質序列作為輸入,併產生蛋白質序列作為輸出。將細胞狀態和化學擾動作為輸入,併產生新的細胞狀態作為輸出。
然而,生物學的結構很差。IncRNA 見解就是一個很好的例子:研究者可以使用什麼結構化表示來表示 IncRNA 在調節染色質結構中的作用?蛋白質模型無法表示它,DNA 模型無法表示它,虛擬單元模型無法表示它。也許一個包含 RNA 表達和 3D 基因組狀態的模型可以代表它,但是該模型將如何代表單核細胞的脂質調節呢?
Sam 擔心每個發現都可能需要自己的表示空間。事實上,生物學的本質是這樣的,如果沒有整個有機體的原子解析度真實空間模型,可能就沒有足以表示與疾病相關的生物現象的多樣性的表示。這樣的全生物模型還很遙遠--目前仍然沒有一個計算機模型可以完全代表單個活細胞的複雜性。
當然,自然語言除外,它已經發展到代表人類能夠思考的所有概念。事實上,Sam 認為自然語言最終是生物學中不可避免的發現,因為它是人類目前所知道的唯--種媒介,它的結構足以用於機器學習,並且足夠靈活地表示生物概念的全部多樣性。
將語言和生物學結合起來的一種方法是使用代理,就像在 FutureHouse 構建的代理一樣。語言代理是語言模型--就像 ChatGPT 一樣--可以使用文獻搜尋工具(例如 PubMed)、蛋白質結構預測工具(例如 AlphaFold)、DNA 分析工具(例如 BLAST)等以與人類相同的方式分析生物資料,但速度更快,規模更大。
FutureHouse 最近部署了代理 PaperQA2 來搜尋文獻,併為人類基因組中的幾乎所有蛋白質編碼基因撰寫一篇準確且被引用的維基百科風格的文章。未來,語言代理將能夠自動分析實驗資料和臨床報告,以提供詳細的生物學假設,類似於上面的 Nature 和 Science 論文中的假設。
文章連結:https://wikicrow.ai/ZMYM3
還有其他方法可以將語言和生物學結合起來。將自然語言與蛋白質、DNA、轉錄組學等相結合的訓練模型也將非常高效,前提是新增結構化資料型別不會限制它們表示非結構化概念的能力。
生物學的歷史建立在人類於自然界中發現的用於研究生物現象的工具之上。CRISPR 是最近的一個有力例子。Sam 如此陳述道。
正如所有生物學家都知道的那樣,試圖從頭開始設計事物(幾乎)永遠不會奏效,有效的方法是在自然界中尋找事物並重新利用它們。如果事實證明 FutureHouse 的工程不足以用於研究生物學,而古老的自然語言只是我們在自然界中發現的另一種工具,必須用於解開生物學的奧秘,那麼它在美學上將是令人愉悅的。