Trends in Plant Science | 植物生物學中的大語言模型

生物信息与育种發表於2024-07-28

分享一篇來自南洋理工大學Marek Mutwil團隊發表在《Trends in Plant Science》上有關植物生物學方向的大語言模型綜述:Large language models in plant biology。生物序列本身就是一種自然語言,與LLM是天作之合,實際上生物大模型已有很多開發,只是解釋太過複雜,大多是學術報導。這方面也是我一直想要總結的,值得分享和反覆閱讀。

圖片

要點

  • 理解植物生物學的複雜性需要創新的分析方法來闡明植物發育和應對壓力反應的遺傳和分子機制。

  • 大語言模型(LLMs)可以在嘈雜的生物資料中找到模式和相關性,但LLMs尚未被植物學界廣泛採用。

  • 描述了不同型別的LLMs,並涵蓋了它們如何被用來研究生物系統。

  • 資料、硬體和軟體的需求在可接受的範圍內,以構建為植物學界服務的強大LLMs。

大語言模型(LLMs),如ChatGPT,已經在全球範圍內掀起了風暴。然而,LLMs並不僅限於人類語言,它們還可以用來分析序列資料,例如DNA、蛋白質和基因表達。由此產生的基礎模型可以被重新用於識別資料中的複雜模式,從而產生強大的、多功能的預測工具,能夠預測細胞系統的狀態。這篇綜述概述了不同型別的LLMs,並展示了它們在生物學中的近期應用。由於LLMs尚未被植物學界廣泛採用,本文還介紹了這些模型如何被部署用於植物。

在生物學中應用深度學習

深度學習的最新進展在人工智慧領域取得了非凡的成就,例如提供準確的醫療診斷、透過律師資格考試以及完成某些版本的圖靈測試。最著名的AI之一,ChatGPT,是一個大語言模型(LLM),這是一種能夠生成模仿人類語言的文字的神經網路。透過在數十億文字上進行訓練,LLM透過自我監督的方式,學習了它所訓練語言的上下文理解。ChatGPT基於一個生成預訓練變換器(GPT)基礎模型,該模型在大量文字資料上進行了預訓練。LLM通常透過解決填空題(例如,“法國的___是巴黎”)進行預訓練,從而獲得對語言和單詞之間相關性的理解。雖然基礎模型是為解決填空題而預訓練的,但它們可以微調到多種用途,允許它們利用之前學到的知識解決新問題。例如,ChatGPT是透過監督學習對基礎GPT-3模型進行微調的版本,模型在對話交流資料集上進行了訓練,專門設計用於執行指令任務。值得注意的是,ChatGPT能夠補充由廣泛科學家網路生成的“植物科學麵臨的一百個重要問題”列表,顯示出LLM可以模仿知識和創造力。

LLM可以透過將DNA或氨基酸序列視為文字來適應分析生物序列資料。這導致了DNA和蛋白質語言模型(LMs)以及其他針對生物序列資料的專業LLM的普及。與應用於自然語言的LLM類似,生物序列LLM的任務是預測掩蔽氨基酸或核苷酸的身份,從而獲得對“蛋白質/DNA語言”的理解,使模型能夠找到新的依賴模式。類似於GPT-3模型,這些生物基礎模型然後可以微調到新任務,並顯示出與甚至超越先前方法在蛋白質結構預測、基因功能預測、調控元件和剪接位點的識別、蛋白質設計等方面競爭的顯著能力(圖1)。這種強大的能力歸功於模型將透過無監督學習獲得的知識應用到特定領域。

然而,LLM方法尚未在植物研究中得到廣泛應用。在這篇綜述中,我們將討論在生物學中使用LLMs的最新進展,並提出如何使用這些方法和可用資料為植物研究帶來新的見解。

圖片

圖1. DNABERT模型的預訓練和微調。模型架構被初始化,並且模型在序列資料上進行預訓練。透過微調得到的預訓練模型可以被重新用於預測各種DNA屬性。

什麼是語言模型(LMs)?

語言模型是訓練在大型文字資料集上的演算法或神經網路(框1),用於學習自然語言中的統計模式和關係。它們是自然語言處理的基本組成部分,並在諸如翻譯、文字生成和問題回答等各個領域有著廣泛的應用。儘管沒有明確的定義說明一個語言模型何時變成一個大語言模型(LLM),但LLM通常具有更多的引數(通常是數十億個),建立在更大的訓練資料上,並比普通語言模型擁有更多的能力。語言模型在生物學中已經使用了幾十年,它們可以被分為詞n-gram、卷積神經網路(CNNs)、長短期記憶(LSTM)網路和變換器(transformers)。

詞n-gram是從文字中連續的n個詞的序列,其中n是一個正整數。例如,“cellulose synthase”(纖維素合酶)是一個2-gram(或二元組)。在生物學中,詞n-gram通常用於科學文獻的文字挖掘以及在DNA中發現調控元件(在這裡n-gram和k-mer可以互換使用)、蛋白質-蛋白質相互作用等。然而,這些方法忽略了詞序,因此無法捕捉n-gram/k-mer之間的上下文。

卷積神經網路(CNNs)使用卷積,即應用於影像或字元序列的核(過濾器),以識別特定特徵或資訊。CNNs已用於植物研究中識別DNA中的調控增強子和蛋白質泛素化。儘管如此,像n-gram一樣,CNNs受到應用過濾器大小的限制,更擅長發現區域性模式而不是長距離依賴和複雜句子結構。CNNs也已被用於從序列預測基因表達水平。值得注意的是,透過使用擴張和掃描場方法,CNNs的效能超過了其他神經網路架構,展示了識別輸入序列中重要基序的能力,在基因組學和轉錄組學分析中被廣泛部署(由於它們的優勢),並被用於預測DNA和RNA結合蛋白的序列特異性。

長短期記憶(LSTM)模型是一種適合分析序列資料的迴圈神經網路(RNN),例如文字或生物序列。LSTM能夠透過使用長期和短期記憶結構的組合,捕捉句子中更遠詞之間的長距離依賴。LSTM已用於生物學中進行基因組註釋和基因型分類。然而,由於LSTM和其他RNN將前一步的輸出作為當前步驟的輸入,它們傾向於在文字大小增加時“忘記”文字的開頭,這是由於資訊被壓縮時消失梯度現象造成的。LSTM也可能不穩定,因為它們受到爆炸梯度的影響,這使得它們對某些資料集特別難以訓練。此外,由於LSTM按序列處理單詞,它們無法利用平行計算的優勢,這使得它們的訓練緩慢且成本高昂。

變換器模型在2017年被引入以改進機器翻譯,但此後已被用於解決各種基因組問題。基於變換器的模型通常透過提供幾個優勢來優於上述架構。變換器的主要優勢在於它們的多頭注意力機制。這在它們的自注意力機制中使用,有效地捕獲資料中的長距離依賴,部分克服了LSTM的“遺忘”問題,從而允許分析更長的序列。這是透過讓多頭注意力機制中的每個頭關注輸入文字的不同部分來實現的,從而允許對長距離互動有更微妙和更好的理解。此外,與RNN不同,其中計算依賴於前一步,變換器允許並行處理,使它們在訓練、部署和擴充套件方面更有效率。最後,這些自注意力機制可以透過探測分析來更好地理解模型關注序列的哪些部分,允許識別序列中元素之間的統計關係。然而,支撐變換器高效能的注意力機制顯示出二次複雜性,其中計算注意力的記憶體和計算需求與序列長度呈二次方增長。這使得訓練變換器在計算上很昂貴,並有效地限制了可以分析的序列長度。

框1. 神經網路

神經網路實際上是具有可調整內部引數的數學函式,這些引數被稱為權重。它們最初是模仿生物神經元設計的,其中權重類似於神經元如何調節其輸入的方式。一個神經元的輸出實質上是其輸入的加權和(即,每個輸入乘以相應的權重,然後將它們全部相加以產生輸出)。最簡單的神經網路之一是感知機,它只由一個神經元組成[78],儘管非常大的神經網路可以包含高達數萬億個引數。從根本上說,神經網路的訓練涉及兩個階段:前向傳播和反向傳播(反向傳播)步驟。在前向傳播中,輸入被送入神經網路,權重以數學方式操縱這些輸入。從前向傳播中派生出輸出,並與真實值進行比較。透過這樣做,可以派生出一個損失值,這可以最好地解釋為預測值和真實值之間的誤差。在反向傳播中,損失被用來對神經網路中的權重進行微小調整,使預測更接近真實值。透過大量的迭代,包括前向和反向傳播,神經網路學習到一組最優權重,這些權重最小化了損失。

在生物學中使用LLMs的示例

在生物學中使用變換器允許了一些最近的突破,例如非常準確的蛋白質結構預測模型AlphaFold2 (AF2) 。然而,並非所有的LLMs都使用變換器(例如,DNA LLM HyenaDNA),也不是所有使用變換器的模型都是LLMs(例如,AF2)。LLM模型可以分為三種架構型別:編碼器-解碼器、僅編碼器和僅解碼器(框2)。來自變換器的雙向編碼器表示(BERT)模型通常用於分類、命名實體識別(NER)和摘要,而GPT模型通常用於文字生成和翻譯。然而,這兩種型別的微調版本可以用於最初不打算用於的任務,例如,ChatGPT可以用於文字分類和NER,使用零樣本或少樣本提示。

由於LLMs用於分析單詞序列,許多型別的序列資料可以用作訓練輸入,在生物學中,BERT和GPT模型最近已被應用於研究基因組、蛋白質組和基因表達資料。LLMs通常使用利用大量公開可用的基因組資料的自我監督方法進行預訓練。BERT模型使用掩蔽語言建模(MLM),目標是預測掩蔽的標記,而GPT模型使用因果語言建模,任務是預測序列中的下一個標記。然後可以將序列中預測的新詞反饋到同一個模型中,以迭代方式重複預測下一個;這使模型成為自迴歸的。透過預訓練,模型學習到標記內的模式,這些模式後來可以用於提取特徵和模式,並推廣到未見過的資料。透過微調這些預訓練的基礎模型,可以用監督學習方法重新用於其他任務。

僅編碼器模型

DNABERT是一個BERT系列模型,使用MLM進行訓練,模型的任務是透過使用上游和下游標記(因此是雙向的)來預測掩蔽的標記。在訓練期間,DNA序列被標記化為k-mer,模型的任務是使用相鄰的k-mer來預測掩蔽的k-mer(見圖1)。訓練資料可以包括具有多個基因組的物種的物種特異性基因組(例如,1000個人類基因組)或多物種基因組。DNABERT-2是在135個物種的基因組上訓練的,總計32.49億個核苷酸鹼基,而Nucleotide Transformer是在驚人的3202個人類基因組和來自其他物種的850個基因組上訓練的。值得注意的是,這些基礎模型是多功能工具,可以微調以擅長各種任務,例如識別轉錄因子結合位點、剪接位點和基因。此外,已證明這些模型在訓練於多個不同物種的基因組時,在許多工上的表現優於訓練於單一物種的基因組。這表明基於不同物種的LLM模型可以學習基因組的通用“語言”,以捕獲跨物種功能重要的基因組特徵,因此,在各種預測任務中具有更好的泛化能力。

ESM-2是一個基於BERT(特別是RoBERTa,BERT的一個衍生物)的LLM,能夠從單個蛋白質序列中準確預測蛋白質結構。ESM-2是在約6500萬個獨特的蛋白質序列上使用MLM方法訓練的。值得注意的是,與使用計算成本高昂的序列比對來識別相關(因此相互作用)氨基酸對的AF2模型相比,ESM-2模型比AF2更簡單,儘管它在CASP14基準測試上的表現低於AF2,但它的速度高達60倍,並且不需要多序列比對輸入,這需要搜尋大型蛋白質資料庫。隨後,該模型被應用於預測來自生命王國的7.72億個蛋白質的結構(https://esmatlas.com/),允許在宏基因組水平上研究蛋白質結構。

Geneformer模型是在約3000萬個人類單細胞RNA測序資料上訓練的,其中基因表達值透過按細胞內基因表達等級排序的基因ID序列轉換而來。然後,模型的任務是透過MLM預測每個細胞中掩蔽的基因,並獲得了對底層基因調控網路的理解。微調後,該模型在基因劑量敏感性、染色質動態和網路動態任務上獲得了最先進的預測效能。基因組預訓練網路(GPN)是唯一專門部署用於植物的模型。模型架構和訓練類似於DNABERT,但它使用卷積機制來捕獲核苷酸之間的長距離依賴,而不是變換器。像DNABERT一樣,該模型能夠識別DNA基序、各種型別的基因組區域(基因間、編碼序列和內含子)並預測單核苷酸多型性的影響。與計算保守性得分的流行工具(phyloP 和phastCons)相比,GPN可以從基因組中所有相似上下文中的聯合核苷酸分佈中學習,並且不依賴於全基因組比對,這些比對在基因間區域通常質量較低。

框2. LLMs的不同架構

LLMs可以分為編碼器-解碼器、僅編碼器和僅解碼器架構。編碼器-解碼器架構由兩個主要部分組成:編碼器和解碼器。編碼器處理輸入序列並將其嵌入到一組高維潛在空間向量中,捕捉序列的含義和上下文。解碼器使用潛在空間向量生成輸出序列,例如,將一種語言翻譯成另一種語言。在變換器LLMs中,編碼器和解碼器具有包括自注意力機制的層,允許它們考慮序列中不同單詞之間的關係。因此,編碼器專注於理解輸入,而解碼器專注於生成輸出。不同的架構擅長不同的任務。

在基因組學的背景下,Orca是一個能夠從DNA序列預測染色體接觸圖的編碼器-解碼器。Orca編碼器接受一維DNA序列並將其嵌入為數值向量,然後解碼為表示基因組接近性的二維接觸圖。僅編碼器LLMs,如BERT,在上游和下游上下文很重要時,擅長生成豐富的生物序列嵌入。這些嵌入可以用作各種分類器的資料。例如,DNABERT嵌入可以直接用於構建轉錄因子結合位點、編碼序列和mRNA剪接位點的最新預測器。

僅解碼器架構,如GPT,擅長生成新序列和各種零樣本預測任務。然而,它們也可以透過微呼叫於預測任務,如在3300萬個人類細胞上訓練並擅長細胞型別註釋、遺傳擾動預測、批次校正和多組學整合的scGPT模型所示。

僅解碼器模型

GPT系列模型在生物學中使用不多。除了自注意力機制,解碼器還具有交叉注意力機制。單細胞GPT(scGPT)是一個LLM,它在各種下游任務中實現了最先進的效能。為了實現這一點,作者創新性地透過在超過1000萬個單細胞RNA測序資料上訓練模型,適應了GPT技術。雖然GPT模型擅長預測句子中的下一個詞,但作者讓模型在給定細胞提示和已知在細胞中表達的基因子集的情況下,預測細胞中基因的表達。透過學習細胞型別和基因表達之間複雜的關聯,該模型在多批次整合、細胞型別註釋、遺傳擾動預測和基因網路推斷等多樣化任務上實現了最先進的效能。值得注意的是,該模型可以輕鬆擴充套件,整合多個組學資料集(例如,基因表達、染色質可及性和蛋白質丰度),以類似翻譯一種組學型別的“語言”到另一種組學型別的“語言”的模式工作。

模型可解釋性

模型可解釋性是使用LLMs的一個關鍵方面。可解釋性指的是理解和解釋機器學習模型所做的決策或預測的能力。在LLMs的背景下,這一點尤其重要,原因有幾個。首先,這些模型的高複雜性和大量的引數使它們本質上難以理解。這種“黑箱”特性在需要理解模型如何工作的科學環境中可能是一個重大障礙,以便深入瞭解底層的生物系統。其次,能夠解釋模型增加了在敏感領域如醫療保健中應用時必不可少的信任和可靠性。第三,可解釋性可以提供對模型關注點和決策過程的洞察,這對於微調和提高模型效能非常有價值。

模型可解釋性已經推動了對調控基因組學的理解。一些先前的工作廣泛使用了SHAPley Additive exPlanations(SHAP),它將模型的輸出分解以計算模型特徵對其輸出的貢獻,以及Deep Learning Important FeaTures(DeepLIFT),它使用反向傳播找到影響輸出的神經元,來解釋模型。這些方法被用來識別DNA序列中的重要序列基序,允許在核苷酸水平上分配重要性分數。

透過在可解釋性領域的進步,植物生物學家可以學習重要特徵,如基因調控結構、DNA結構屬性和基序共關聯,並將其應用於合成生物學等領域以培育更好的作物。儘管已經提出了許多其他可解釋性方法,例如透過在訓練中新增約束來使模型本質上可解釋,或從神經網路的隱藏表示(潛在空間)中進行事後可解釋性,可解釋性仍然是一個大部分未解決的問題,不同的架構使用不同的提議解決方案,如前所述。值得注意的是,在可解釋性領域沒有一勞永逸的解決方案,需要更多的研究。

在新型模型的背景下,已經開發了各種技術來提高LLMs的可解釋性。這些技術包括特徵重要性對映、注意力圖和旨在將模型決策分解為可理解元件的可解釋性框架。例如,變換器中的自注意力機制可以被探測以理解模型關注序列的哪些部分,從而揭示資料內的統計關係。在生物學應用中,這可能意味著識別模型認為對特定預測任務重要的關鍵基因組或蛋白質組特徵(圖2)。

還存在可以顯示BERT模型中注意力頭的視覺化工具,例如BertViz,它可以突出顯示輸入序列的哪些區域在模型的每層中貢獻最大。在DNABERT中,作者開發了DNABERT-viz,它同樣繪製了變換器頭的自注意力圖。在scGPT中,作者同樣分析了注意力圖,並在由GPT模型生成的嵌入上進行了聚類和基因富集分析。透過在潛在空間中聚類和尋找鄰居,可以構建相似性網路以推斷離散基因之間的相互作用。

這證明了儘管DNABERT和scGPT是變換器模型的兩個不同譜系,但類似的分析方法可以透過未池化的嵌入或透過解讀注意力機制來使用。在生物學研究中,變換器的這些屬性可以被用來,例如,(i)註釋DNA序列並預測蛋白質功能,以及(ii)解釋序列中的哪些基序對所述預測做出貢獻,從而提供對賦予序列該屬性的關鍵氨基酸殘基或核酸基序的洞察。這反過來可以為下游的溼實驗室驗證實驗提供線索,提高對這些序列的整體理解,併為透過改進對底層DNA序列的理解來培育更好的作物提供基礎。雖然各種深度神經網路架構在提取各種型別的生物資訊方面取得了成功,但我們預見基於變換器的方法可能提供更優越的能力,特別是在處理生物資料中的長距離依賴和複雜模式方面。

圖片

圖2. DNABERT模型的預訓練、解剖、分類和探測。預訓練步驟接受可以分解為k-mer(標記化)的DNA序列,模型的任務是透過掩蔽語言建模預測掩蔽標記的身份。預訓練中使用的不同標記包括CLS標記(分類標記——描述特定序列的型別,例如編碼序列)、SEP標記(分隔不同序列)和MASK標記(預訓練中掩蔽k-mer)。輸入透過嵌入層並由變換器塊處理。最後隱藏狀態可以用於分類層以預測分析序列的屬性。使用BertViz視覺化的DNABERT-2注意力圖使模型的可解釋性更好,說明某些標記如何促進對其他標記的上下文理解。

為植物構建LLMs:資料、硬體和軟體需求

儘管最近已經努力為植物構建LLMs,如FloraBERT和AgroNT,但仍然很少關注在植物資料上訓練這些LLMs,甚至更少關注應用它們。許多最初的DNA語言模型沒有在植物資料上訓練(例如,DNABERT-2是在動物、細菌和真菌上預訓練的,而不是植物)或僅在有限的植物物種選擇上訓練。有超過788個已測序的植物基因組,更多的模型可以在各種植物上預訓練,涵蓋被子植物、裸子植物、蕨類植物、石松植物、苔蘚植物和綠藻類,並應用於植物研究,例如使用這些模型進行轉錄組表達預測。此外,正如上文所例證的,LLMs可以與單細胞RNA測序資料(GeneFormer和scGPT)一起預訓練和微調,以及其他捕獲表觀基因組、蛋白質組和代謝組的方式,因為這些資料越來越可用。正如人類細胞圖譜有助於解釋新資料集,最近為策劃多模態植物資料的舉措被證明對於植物學中結構化資料組織至關重要。

植物的單細胞RNA測序資料正在積累,已有超過100萬個擬南芥的測序細胞核。這些研究包括捕捉種子到種子發育的圖譜(800,000個測序細胞核)、根部油菜素內酯反應(210,856個細胞核)、根部發育(100,000個細胞核)、葉片感染時間過程(41,994和11,895個細胞核)以及葉片紫外線處理(23,729個細胞核)。不出所料,更多的資料轉化為LLM模型的更高效能,因為將scGPT訓練資料集大小從300,000個細胞核增加到3,000,000個細胞核將細胞型別註釋準確率從0.755提高到0.84。幸運的是,LLMs可以解釋批次效應,使得可以整合來自多個研究的單細胞資料。這表明已經產生和未來的資料對於構建植物LLMs將是非常寶貴的。

LLMs的硬體需求通常是昂貴的,因為這些模型需要具有大量記憶體的昂貴圖形處理單元(GPU)。實際上,訓練如ESM-2這樣的模型在大型科技公司之外是不可能的,訓練成本可能超過200,000美元(最大的模型在512個NVIDIA V100 GPU上訓練60天)。然而,對於較小的模型以及在各種雲服務的普及下,計算可以負擔得起且易於實施。例如,預訓練DNABERT-2的成本約為600美元(在8個NVIDIA GeForce RTX 2080 Ti GPU上訓練14天),而GeneFormer的成本約為400美元(在12個NVIDIA V100 32GB GPU上訓練3天)在各種雲服務上。此外,大多數模型都作為開源軟體提供,並附有使用者手冊,允許精通Python的計算生物學家輕鬆微調和部署。

結論和未來展望

儘管使用深度學習方法研究生物現象並不是新事物,但近年來,越來越強大的人工智慧模型的出現,使它們能夠篩選並識別嘈雜基因組資料中的模式。雖然其他架構,如CNNs和RNNs,透過開創轉錄組預測和預測蛋白質的RNA和DNA結合位點,為生物資訊學領域做出了重大貢獻,但具有高度適應性注意力機制的LLMs為這一領域提供了新的視角。當然,這並沒有抹去使用舊架構完成的大量工作。LLMs有潛力成為正規化轉變的驅動力,其中通常以假設為驅動的科學可以越來越多地以資料為驅動。在這種新正規化中,研究人員可以從無假設的、大規模的資料生成開始,這些資料可以用來訓練LLM。

LLMs在幾項預測任務中表現出最先進的效能,如基因組註釋、轉錄因子結合位點識別和蛋白質結構預測。然而,透過整合多模態資料,LLMs可以提供更深入的見解,提供更全面的細胞系統檢視和更強的預測效能。例如,透過整合染色質可及性和蛋白質丰度測量,scGPT在識別細胞型別方面表現更好。同時,基於多物種資料構建模型可以提供穩健的進化洞見,正如Nucleotide Transformer模型的基準測試實驗所例證的。研究表明,與多物種基因組訓練相比,僅用多個人類基因組訓練的表現並不那麼好,這表明多物種模型更好地捕獲了在進化過程中保守的功能重要性。最後,更多的資料和增加的多樣性通常會導致更高的效能,正如GeneFormer的預測能力隨著訓練語料庫中細胞數量的增加而不斷提高。

透過構建具有更多引數的模型,也可以提高LLMs的效能,因為更大的模型通常表現更好。然而,由於更大的LLMs需要更多的計算資源,這就需要更高效的模型。幸運的是,對LLMs的研究帶來了幾項創新,產生了更小、更高效的模型。例如,FlashAttention使用最佳化的讀寫演算法加快了預訓練,並允許分析更長的序列,而稀疏注意力可以顯著減少訓練所需的記憶體佔用和計算資源。對於微調,Low-Rank Adaptation在預訓練的大型模型中插入少量可訓練引數,將記憶體佔用減少了多達三倍。更高效的資源模型,如HyenaDNA,放棄了昂貴的注意力機制,使用長依賴卷積系統,將訓練計算減少了20%,並將可查詢的標記數量增加到100萬。

植物研究的未來可以透過使用LLMs大大增強和促進。雖然以前的工作在研究生物系統時利用了深度學習,但LLMs提供了新的視角,並且在幾種情況下,與以前的方法相比,效能有所提高。用例可能包括從DNA序列預測基因表達模式,這可以用來預測植物在不利條件下的表現,到預測突變對基因表達的影響。生成模型可以透過從頭開始提出新啟動子來幫助合成生物學中重要的啟動子的建立,為更好的作物工程鋪平道路。以前的機器學習方法也可以透過LLMs增強,建立新的混合CNN-RNN深度學習模型,這些模型可以提高可解釋性,並在資料稀缺的條件下更好地適應,如Mamba架構。這反過來將引導該領域以更少的資料更好地理解底層生物學。

未解決的問題

  1. 如何提供訪問不斷積累的多模態單細胞資料,這些資料是構建LLMs所必需的?

  2. 如何降低LLMs的使用門檻,使它們更容易被植物學界理解和部署?

  3. 為了模擬細胞系統,最需要多少資料以及哪些資料模態?

  4. 透過在多物種的多模態資料上訓練LLMs,可以獲得哪些洞見?

資源:

  • www.runpod.io/

  • https://github.com/Zhihan1996/DNABERT_2

  • https://github.com/bowang-lab/scGPT

關注本公眾號,後臺回覆:植物LLM,獲取PDF原文。

圖片

相關文章