湖畔實驗室AI加速棉花品種改良:解析近3億DNA甲基化資料,找到43個關鍵基因

新闻助手發表於2024-10-24

棉花產量與纖維品質如何受到DNA甲基化調控?在AI的幫助下,中國棉花育種專家成功破譯這一“密碼本”,並從中找出有望改良棉花品種的關鍵基因位點。

近日,由浙江大學棉花精準育種團隊、中國農科院生物技術所和湖畔實驗室(阿里巴巴達摩院)智慧育種團隊組成的聯合科研團隊,綜合運用遺傳學、生物大資料和AI技術,構建了涵蓋207個品種的棉花全基因組DNA甲基化圖譜,鑑定2.87億個單甲基化多型性(SMP)位點,規模為目前所有作物之最。聯合團隊從中發現43個潛在參與纖維發育的eQTM基因,為棉花育種提供重要的候選基因列表。相關論文發表在國際頂級期刊《細胞研究》(Cell Research)上。

棉花是全球最大的天然紡織纖維來源,需要透過不斷聚合優異的基因組遺傳位點,進行品種改良。在AI、大資料等技術加持下,農業正在步入“智慧育種”時代,透過綜合作物基因型資料、表型資料和環境資料,預測作物性狀,精準篩選出優異基因。

此次,聯合科研團隊聚焦DNA甲基化對作物的影響。DNA甲基化可以在不改變棉花DNA序列的情況下,影響棉花產量、纖維品質等農藝性狀,並透過自然進化和人工選擇傳遞。團隊收集了207個品種的棉花全基因組甲基化測序資料、基因組測序資料、轉錄組測序資料,再結合農藝性狀的表型資料,進行關聯分析,首次構建起群體尺度的棉花全基因組DNA甲基化圖譜,涵蓋2.87億個單甲基化多型性(SMP)位點。其中,僅甲基化測序資料就達到17TB。

湖畔實驗室融合AI、平行計算等技術開發了一套新型演算法,加速海量遺傳資料的分析處理。湖畔實驗室智慧育種團隊負責人顧斐表示:“相比起傳統方法,AI加成的分析計算速度提升近100倍,有助於開展億級序列對比、群體變異分析和多組學關聯分析,在數百個遺傳變異、數萬個基因以及數億個甲基化位點之間建立起復雜的對映關係。”

聯合科研團隊進而首次繪製出與棉花纖維發育相關、獨立於遺傳因素的表觀調控網路,揭示了43個潛在參與纖維發育的eQTM基因。其中一個位點已透過基因編輯實驗,證實其調控棉花纖維長度的作用。此外,研究人員研發了深度學習模型DeepFDML,基於DNA甲基化位點附近的序列,預測影響基因表達的甲基化位點,未來有望發現更多具有育種價值的資訊。

湖畔實驗室AI加速棉花品種改良:解析近3億DNA甲基化資料,找到43個關鍵基因

圖說:群體單鹼基DNA甲基化多型性的精準鑑定、調控網路解析與預測模型構建

浙江大學棉花精準育種團隊方磊教授表示:“這項研究成果證明了DNA甲基化資料可作為育種資源,為棉花品種改良提供新的思路。依託生命科學+AI,育種家們將持續挖掘關鍵基因、預測農藝性狀,加速培育‘超級’作物。”

據悉,湖畔實驗室(資料科學與應用浙江省實驗室)成立於2020年7月,依託阿里巴巴達摩院建設,聚焦資料科學領域的“資料智慧”和“新型計算”兩大方向。在智慧育種領域,湖畔實驗室牽頭研發全流程智慧育種平臺,為育種家們提供包含育種資料管理和分析、計算加速、AI預測的“中央廚房”,大幅縮短培育新品種的週期。

相關文章