2024年7月,Genomics, Proteomics & Bioinformatics (GPB)線上發表了由中國農業大學王向峰教授團隊撰寫的題為“Machine learning for AI breeding in plants”的觀點文章。
機器學習 (ML) 使人工智慧 (AI) 變得智慧,ML 先驅 Arthur Samuel 於 1959 年將其定義為“使計算機能夠在無需明確程式設計的情況下學習的研究領域”。ML 可以推斷資料模式,而無需像統計學那樣依賴先前的假設,從而大大減少了理解資料所需的人力。ML 由一大類演算法組成,其中許多演算法支援大資料分析。隨著多組學技術的飛速發展,植物育種已進入“基因組、種質、基因、基因組育種和基因編輯 (5G)”一代,其中生物知識和組學資料相結合,以加速性狀改良。ML 在 5G 育種方面前景廣闊,許多報導稱 ML 在組學驅動的基因發現、基因型到表型 (G2P) 預測、基因組選擇 (GS) 和植物表型組學中的應用。然而,植物的基礎研究和育種實踐之間仍然存在差距。鑑於多組學、基因組學、表型和環境資料集已經變得高維度和異構,因此需要新的機器學習演算法。因此,我們提出了克服尖端 ML 模型應用於植物研究的主要挑戰的方法,最終目標是使植物育種變得智慧和簡單。
用於基因發現的群體規模多組學分析
發現農藝學上有用的基因是利用自然變異進行標記輔助選擇 (MAS) 或透過基因組編輯產生人工突變的前提。常見農藝性狀的全基因組關聯研究 (GWAS) 已達到瓶頸,因為它們剖析複雜多基因性狀的能力非常有限。當細胞生物分子(例如 RNA 轉錄本、蛋白質、代謝物)被視為分子性狀 (mTraits) 時,在不同時空條件下專注於參考種質皮膚的多組學分析可以大大提高致病基因和突變的定位解析度。此外,表型組學已成為多組學的另一個主要組成部分,其中表型組學資料主要由使用計算機視覺技術的高通量成像裝置生成。由於表型特徵可能反映了植物細胞內的某些生理活動,因此這種型別的特徵可以被視為成像性狀 (iTraits)。
應對“維度詛咒”
群體規模的多組學資料集往往是高維、嘈雜和異質的。使用一種稱為降維 (DR) 的無監督學習來解決此問題,以防止“維度詛咒”。多組學資料關聯研究 (MODAS) 工具箱將多種 DR 演算法應用於植物的基因型和 mTraits。為了對基因型執行 DR,MODAS 結合了 Jaccard 相似係數、基於密度的應用程式空間聚類與噪聲 (DBSCAN) 和主成分分析 (PCA) 演算法,以生成“偽基因型索引”檔案。這個高度簡化的變異圖譜使用數萬個基因組塊來表示基因組中數百萬個單核苷酸多型性 (SNP),從而提高了繪製 mTraits 的分析效率。
mTraits 的維度也必須降低,因為由於技術問題和生物途徑的特性,組學資料是高度冗餘的。例如,代謝物是由涉及許多基因和通路的一連串酶促反應產生的,並且通路之間的串擾很常見。因此,鑑於它們高度相關的模式,最終產物和中間化合物都可以重複對映到同一區域。非負矩陣分解 (NMF) 演算法透過將樣本{{0}{5}{4}{3}} n ) × 代謝物矩陣分解為一個元代謝物維度和一個元樣本維度來消除冗餘。樣品中元代謝物的權重代表一組成簇化合物的總體丰度,元樣品的權重反映了根據對映區域的單倍型劃分的樣品亞組。有助於相應生物合成途徑的基因組塊透過 GWAS 在代謝物和假基因型指數之間進行對映。然後使用模組內的 SNP 來識別致病基因和突變。此策略大大減少了計算時間並節省了資源,同時提供了清晰、易於解釋的結果。
自動化特徵工程
另一個常見問題是 SNP、mTraits 或 iTraits 等特徵集遠大於樣本集。這會增加過擬合的風險,因為模型可能會從資料中學習到不正確的特徵。因此,在訓練模型之前,必須執行特徵工程,包括特徵選擇或特徵提取。特徵選擇傾向於從總特徵中選擇一小部分,而不更改原始特徵值。這可以透過基於先驗知識的手動選擇或透過在訓練模型時瞭解特徵的重要性來自動選擇來實現。相比之下,特徵提取透過彙總原始特徵的特徵來建立一小組新特徵。NMF 是一種特徵提取形式,因為代謝物是從更大的代謝物集衍生的新功能。特徵工程可以嵌入到許多 ML 正規化中,例如深度學習 (DL) 和整合學習 (EL)。DL 卷積神經網路演算法在網路層之間傳輸資訊時執行特徵提取。Light Gradient Boosting Machine (LightGBM) 透過計算資訊增益 (IG) 分數來選擇高重要性特徵來執行特徵選擇。
儘管使用網格搜尋的自動超引數調整在工廠中得到廣泛實施,但自動化特徵工程在很大程度上被忽視了。在最近的一項研究中,LightGBM 選擇的具有高 IG 分數的 SNP 特徵與從 GWAS 中鑑定的峰值 SNP 一致,表明演算法能夠識別與特徵相關的變異。它表明自動特徵選擇也可用於發現農藝上重要的基因,並促進彙編與 MAS 目標性狀相關的有效分子標記的皮膚設計。除了嵌入在 ML 演算法中的方法外,許多專為特徵工程設計的獨立工具也可以在工廠中使用,例如 Python “Featuretools” 庫中的深度特徵合成方法。
流形學習用於資料視覺化
流形學習使用非線性 DR 演算法來視覺化具有超高維數的資料集,這有助於保持高維資料的幾何屬性,即使對映到低維空間也是如此。該技術對於視覺化單細胞 RNA 測序 (scRNA-seq) 資料特別有用。基於 scRNA-seq 資料研究了異質細胞群的結構,包括 t 分佈隨機鄰域嵌入 (t-SNE)、統一流形近似和投影 (UMAP) 以及基於親和力的軌跡嵌入的熱擴散潛力 (PHATE)。另一種策略利用深度神經網路 (DNN) 從不同網路層的內部節點提取資訊,在統一模型下同時實現批次校正、聚類、去噪和資料視覺化。使用這種策略的 DL 不再被視為“黑匣子”,因為幾何特性可能反映了 DNN 隱藏層提取的生物特徵。用於無監督聚類、插補和嵌入的稀疏自動編碼器 (SAUCIE) 同時執行 scRNA-seq 資料的 DR 和視覺化。其他組學資料型別也以單細胞解析度生成。對齊和整合相同細胞群的多個水平組學資料已成為一項新的挑戰。
致病變異的精細定位
從本質上講,基因發現是為了識別對指定性狀有益的等位基因基因組變異。因此,致病變異的精細定位,包括 SNP、插入和缺失 (InDels)、存在和不存在變異 (PAV) 以及導致直接功能變化的各種結構變異 (SVs),對於精確設計的育種非常重要。對於改善由具有重大影響的單基因決定的定性性狀尤其如此。然而,涉及編碼 SNP 或替代蛋白質功能的短 InDel 的致病變異僅佔性狀相關變異的很小一部分。歸因於 SV 和 PAV 的調控變異的定位非常困難,因為它需要來自代表性核心種質的從頭組裝的高質量泛基因組序列。
為了實現這一目標,需要由不同型別的組學資料輔助的多個步驟。它首先透過對目標性狀進行 GWAS 分析,對基因組區間進行粗略定位,通常以兆鹼基為單位;然後,對轉錄組關聯研究 (TWAS)、代謝組關聯研究 (MWAS) 和其他型別的技術生成的各種資料集進行綜合分析,透過染色質免疫沉澱測序 (ChIP-seq) 或自轉錄活性調節區測序 (STARR-seq) 分析順式調節元件,以進一步縮小候選基因或基因組區域的列表;第三,將候選基因和區域中 SNP 的基因型對映到泛基因組組裝,以確定與每個 SV 或 PAV 相關的單倍型圖譜 (HapMap);最後,進行統計檢驗以檢查 PAV 相關的 HapMap 是否與表型變異顯著一致。
然而,值得注意的是,這些從多組學分析中鑑定的所謂致病變異只是候選基因或變異。它們是否直接參與導致性狀變化的功能變異仍然需要嚴格的實驗驗證,然後才能最終將該功能標記用於分子設計育種。由於致病變異的精細定位涉及多種形式的群體規模組學資料,這些資料最近被 Weckwerth 等人定義為泛組學,因此高度期待開發解決泛組學綜合分析的 ML 方法。
知識驅動的分子設計育種
植物研究的知識最終應該促進應用植物育種。透過明確瞭解性狀背後的生物學機制,致病基因可以精確地用於性狀改進。然而,將生物學知識轉化為育種仍然具有挑戰性。例如,用於 GWAS 的種質皮膚通常由野生親緣種、地方品種、過時的栽培品種和現代栽培品種組成,以確保基因型和表型的多樣性。然而,種質中定位的大多數突變在現代栽培品種中已不再存在,因為有害等位基因已被人工選擇去除,有益等位基因已被固定。因此,現代育種中使用的基因相對較少,並且這些傳達理想性狀的基因的突變通常因種群而異。前景突變僅在特定的遺傳背景下才能正常工作;因此,即使從種質中發現的突變具有潛在價值,它也可能無法直接用於現代育種系統。同樣,在產生人工突變時,新突變必須適應現有的基因調控網路。因此,瓶頸不在於基因組編輯或轉基因技術,而在於需要識別可以在不影響非靶性狀的情況下進行修飾的基因和受體材料。
育種就是 “時機 ”和 “平衡”
性狀改良本質上是微調基因調控網路的過程。雜交透過重組有害和有益的等位基因產生新的基因調控模式。這個過程提供了選擇最佳網路的機會,其中涉及調控途徑的基因滿足性狀改進的育種目標。因此,即使是很小的表型變化也可能涉及重塑的基因調控網路,影響基因和通路之間的複雜相互作用。闡明有害和有益等位基因的定義也很重要。也就是說,沒有等位基因是絕對有害或有益的:等位基因是根據它們對產量的最終影響來定義的。然而,有害和有益的狀態可能是可以相互轉換的,具體取決於發展階段和/或環境。例如,營養生長的有益等位基因有利於生物量積累,但可能會對生殖發育產生負面影響,從而對產量相關性狀有害。因此,育種不能簡單地理解為一種去除有害等位基因或金字塔式有益等位基因的方法;相反,必須平衡兩組抵消等位基因的作用。
我們如何有效地將對基因和機制的瞭解轉化為育種應用?ML 之所以適合完成這項任務,是因為它能夠整合知識和資料。為了說明這一點,考慮 ML 促進的分子設計來培育適合機械收穫的玉米品種。這需要考慮多種改良性狀,包括植物緊湊度、籽粒脫水率、開花和成熟時間、莖稈剛度和強度以及玉米殼形態。最大的困難是處理基因的多效性效應:改變一個性狀可能會影響其他性狀。面向目標的優先順序排序 (TOP) 是一種最近開發的綜合多特徵 ML 演算法,它以數學方式學習多個特徵之間的協同或競爭關係,以做出選擇優秀候選株的凝聚力決策。只要獲取到足夠的基因型和表型資料,ML 模型就可以根據知識圖譜建立基因和性狀之間的相關性。指定育種種群的目標基因可以組裝為 ML 演算法的皮膚,以學習等位基因組合的最佳模式。然後,該模型有助於選擇具有所需單倍型的材料,以同時改善多個性狀。
採用 EL 的皮膚設計
透過靶向測序 (GBTS) 進行基因分型可捕獲含有 SNP 的區域用於基因皮膚測序,廣泛用於精準醫學中的基因診斷。典型的 GBTS 檢測組合包含數千到數萬個 SNP,涵蓋數十到數百個基因,允許對數百個樣本進行多重分析以進行基因分型。然而,由於需要處理數萬個樣本,植物育種的每個樣本基因分型成本仍然相對較高。儘管如此,GBTS 是積累 ML 訓練資料的好方法,直到種群足夠大以覆蓋目標基因的所有可能的等位基因組合。只要確定了最穩定的 SNP,就可以設計一個包含數十個 SNP 的新型低成本 panel。
然後可以使用基於競爭性等位基因特異性 PCR (KASP) 的超高通量、可擴充套件平臺,例如 Nexar Array Tape 系統。這些平臺每次執行可對數萬個樣品進行多重檢測,但標記物必須具有高度的通用性和有效性。然後,可以利用 EL 中嵌入的特徵選擇來選擇標記。EL 是一系列 ML 演算法,包括隨機森林、梯度提升決策樹 (GBDT)、極端梯度提升 (XGBoost)、分類提升 (CatBoost) 和輕梯度提升機 (LightGBM),它們彙集了來自多個弱學習器的結果以增強可預測性。LightGBM 生成逐葉樹並識別“最佳葉子”,在這種情況下,這些葉子是分類性狀具有高效用的 SNP。這種能力由 IG 分數表示,它類似於從 GWAS推斷的 SNP效應。因此,LightGBM 是透過自動特徵選擇編譯高度濃縮的 SNP 皮膚的理想工具,同時保持最大的可預測性。
透過因果學習設計通路
雖然標記皮膚涵蓋與 GWAS 分析中確定的相關性狀相關的 SNP,但通路皮膚可能包含與形成調節網路的基因相關的變異,或位於從多組學分析中確定的代謝生物合成途徑中的變異。因此,設計通路皮膚需要推斷兩個基因(例如轉錄因子和靶基因)之間的“因”和“果”關係。與通常用於改善涵蓋數千個 SNP 標記的常規農藝性狀的標記皮膚相比,通路皮膚可能包含與基因相關的標記要少得多,這些標記用於改善植物的特定特性,例如抗應激功能或增強某些代謝物化合物的含量。推斷的因果關係可以用作透過對功能相關基因進行聚類來設計性狀皮膚的規則。孟德爾隨機化 (MR) 最近被用於根據群體規模多組學分析的總結結果推斷植物突變、基因、生物分子和性狀之間的因果關係。然而,MR 的假設是基於人類群體遺傳學的。該工具是否適用於所有植物物種需要驗證,因為馴化植物是人工選擇而不是自然選擇的結果。因此,有必要尋求獨立於遺傳假設的新方法。事實上,ML 和因果推理是兩個具有不同方法系統的獨立領域:ML 根據資料相關性預測結果而不解釋因果關係,而因果推理則確定變數的“原因”和“效果”的作用。資料科學家正在嘗試將這兩個系統結合起來。“因果學習”這一新領域賦予了 ML 模型解釋潛在原因的能力,從而使 AI 更接近現實世界的決策。例如,因果表示學習旨在根據低階觀察發現高階因果變數。因果樹學習是分類和迴歸樹 (CART) 模型的修改版本,用於估計樹拆分過程中的因果關係。這些方法可用於從多組學資料中重建生物網路,其中推斷的因果關係代表節點之間的方向邊緣。
資料驅動的基因組設計育種
從工業育種計劃中獲得的資料可以包括基因、表型、環境、氣候和任何型別的田間資料。與知識驅動設計不同,資料驅動設計不需要了解性狀背後的特定基因和機制。相反,它使用統計或 ML 模型來推斷資料之間的相關性,如 GS 所示。然而,基因分型成本仍然是阻礙 GS 在植物育種行業廣泛應用的主要因素。GBTS 的一個有前途的替代品是低覆蓋度全基因組測序 (lcGWS) 或超低覆蓋度全基因組測序 (ulcGWS),它們分別以 1.5× 或 0.5× 的預期覆蓋度對基因組 DNA 進行隨機測序。lcGWS 的基因分型成本遠低於 GBTS,因為它跳過了捕獲靶向 DNA 片段的步驟。然而,由於 DNA 片段是透過 lcGWS 隨機測序的,因此 SNP 可能無法一致地被所有基因分型樣本覆蓋。一種可能的解決方案是首先構建一個由所有精英自交系組成的參考 HapMap,其中通常包括 50 到 100 個品系,這些品系經常用作創始品系,以在育種專案中生成雙倍單倍體 (DH) 品系。然而,參考 HapMap 必須透過高覆蓋率全基因組測序 (hcGWS;即 30×) 構建,以便它可以用於對由 HapMap 中包含的創始系生成的 DH 系的基因型資料進行填補。透過這種方式,可以推斷出相對一致的 SNP 皮膚來執行 GS 預測。值得注意的是,由於透過插補推斷的 SNP 基因型可能包括一小部分不可估量的錯誤,因此 DH 系是 HapMap 中包含的創始系的更好後代或近親,並且在進行插補之前必須進行嚴格的 SNP 過濾,以最大限度地減少錯誤基因型資訊的比例。
在決策模型的幫助下,來自人類經驗的輸入在育種管道中在很大程度上被最小化。主要目的是降低成本,精度不是重中之重。因此,在實際育種實踐中必須考慮成本和精度之間的平衡。由於基因分型和表型分析的成本佔育種專案總費用的主要比例,因此 GS 專案通常使用整個種群的 20%–25% 來獲取基因型和表型資料來構建訓練資料集。在這個訓練和測試樣本的比率下,根據 Pearson 相關係數的評估,預測精度可以達到 0.5 到 0.6,但總成本可以降低大約 30% 到 40%。例如,一個試點玉米育種專案使用 ∼ 9000 個雜交種來訓練 GS 模型,並預測了 ∼ 34,000 個未經測試的雜交種的性狀表現,為後續育種週期提供了對優勢和雜交組合遺傳機制的深入瞭解。GS 中的另一個常見問題是當多個遠緣種質皮膚參與雜交時,種群分層。必須仔細考慮訓練樣本和預測樣本的正確劃分,以防止嚴重的過擬合。
越來越多的研究說明了整合多組學資料以進一步提高基於 DL 或 DNN 的預測精度以促進 GS 或基因組預測 (GP) 的可行性,例如 DeepGS 和 DNNGP 的工具。然而,在訓練 GS 模型時直接使用多組學資料是有風險的,因為由於特徵集的極高複雜性,它可能會導致不可估量的過擬合。因此,在模型訓練之前,必須利用上述針對 mTraits 或 iTraits 的特徵工程來降低資料維度。然後,將維度向量視為特徵,與 SNP 的基因型相結合以訓練 GS 模型。此外,生成多組學資料的成本很高,並且不可能為每個育種週期中的每個樣本生成 RNA 測序 (RNA-seq) 或代謝組分析。我們應該只利用從一組多組學資料中得出的生物資訊,這本質上是不同組學資料集的先天相關性。因此,使用可解釋 DL 框架進行遷移學習有望將源自多組學資料的網路層轉移到 SNP 特徵的基因型中。透過這種方式,測序成本和資料複雜性問題都可以得到妥善解決。
商業育種管道可以分為多個階段,每個階段都可能生成用於構建決策模型的資料。理論上,統計模型解決的任何問題也可以由 ML 解決。然而,到目前為止,只有 GS 是使用 ML 方法實現的,大多數其他研究都是基於統計資料的。由於在現代玉米工業中使用單雜交育種,GS 被廣泛用於玉米育種:在這種情況下,對親本自交系進行基因分型可以推斷 F1 基因型,大大降低基因分型成本。然而,應注意 GS 對育種目標的效用。GS 適用於使用全基因組遺傳背景詢問兩個親本池之間的一般結合能力或雜種優勢效應效能,因為優勢是由基因組親緣關係而不是幾個標記決定的。因此,GS 的最終目標是加速利用計算機預測的遺傳增益進展,以降低田間成本。然而,如果目標是微調特定性狀,例如抗逆能力,則 GS 是不合適的,而理想的解決方案是在致病基因定位後使用一小組性狀相關標記(也稱為遺傳前景)進行分子設計育種。
由於 GS 可能無法解決育種中遇到的所有問題,因此已經開發了互補模型。例如,透過虛擬模擬 (GOVS) 進行基因組最佳化利用最小二乘法來推斷對穀物產量有有益影響的基因組片段,並將所有有益片段的組裝模擬為最佳化的基因組。模擬基因組有助於根據有益片段的數量而不是預測的表型來選擇優勢品系。GOVS 還有助於識別具有互補有益片段集的品系。這些互補的系可以雜交,雙倍單倍體技術可用於精確金字塔狀有益片段。
對植物響應環境的表型可塑性進行建模是促進育種過程中決策的另一種重要方法。表型可塑性是基因型-環境相互作用 (G×E)的結果。G×E 模型有助於確定實現最高產量生產力的最佳生態範圍,並估計不同生態區的產量穩定性。如果考慮更復雜的氣候因素,該模型還有助於估計氣候變化對產量效能和穀物質量的影響,並確定適應氣候變化的最佳基因型。然而,大多數模擬 G×E 的方法都是基於線性迴歸演算法來推斷產量效能與一些環境因素之間的相關性。統計模型已不適合對日益複雜的基因、表型、環境和氣候資料集進行建模,因此需要 ML 方法。模擬表型可塑性的另一個關鍵問題是自交系和雜交種之間的異質可塑性,這嚴重影響模型精度,在使用 ML 方法預測從自交系到雜交系的環境特異性性狀時必須考慮這一點。
雖然從理論上講,統計解決的所有問題都可以透過 ML 解決,但 ML 並不總是最佳選擇。如果問題是 “白盒”,則應使用統計資料,尤其是當顯式標記的樣本數量不足以涵蓋 ML 模型可以學習的所有模式時。如果訓練資料集小於測試資料集,則 ML 模型的預測精度通常低於統計模型。標記樣本的稀缺是育種中的一個常見問題,不僅因為表型分析成本高且勞動密集,還因為某些性狀難以明確定義和準確測量,例如生物和非生物脅迫相關性狀。半監督學習是解決這個問題的一種很有前途的方法,包括正無標籤學習、生成對抗網路、對比學習和遷移學習,但在其應用中需要謹慎。如果資料分佈不均勻,則可能會發生不可估量的過擬合,因為偏差將被預測的標籤放大。另一種選擇是多模態學習,它將互補資訊整合到多種模態中,以發現資料的潛在表示。聯合 DR (jDR) 被有效地用於整合來自同一樣本的多源轉錄組、複製數變異 (CNV) 、 microRNA 和甲基化組資料,用於人類癌症預測和分類。隨著植物種質中組學資料的快速生成,也許這種多模態學習演算法可用於解決模型訓練樣本量有限的問題。
構建植物 AI 育種生態系統
一個普遍的共識是,高質量的資料集和標籤比 ML 模型本身更重要。這條規則也適用於育種。最近的一項研究透過預測 6 種植物物種的 18 個性狀來評估 12 個 GS 模型,結果表明沒有一種方法在所有性狀和物種中表現最佳。超引數最佳化對於使用 ML 實現最佳效能至關重要。這項研究揭示了將 ML 應用於植物育種的複雜性,這可能是由於遺傳物質的複雜組成和環境對錶型的影響。因此,在將 ML 應用於育種時,精度並不是唯一的目標:還必須考慮模型的穩健性、可擴充套件性和效率。專為植物 AI 育種而設計的 ML 生態系統受到種子行業的高度期待。這個生態系統必須包含三個主要組成部分:資料、模型和應用程式平臺( 圖1 )。資料平臺應由統一的管道組成,用於自動收集、處理、分析和儲存基因型和表型資料,並由基於雲的計算提供便利。該模型平臺將包括 GS、G2P、G×E 和其他使用 ML 和統計方法開發的決策模型,以及用於模型選擇、特徵工程和超引數調整的自動化模組。該應用程式平臺將由從預測模型實現的工具組成,並配備使用者友好的介面,以向終端使用者提供服務和報告結果。這樣的 ML 生態系統將使植物育種在這個 AI 時代更智慧、更輕鬆。
圖1 作物智慧育種構建生態系統基本組成示意圖
作者自己介紹:GPB | 機器學習技術驅動植物AI育種