近日,中國農業大學農學院汪海團隊聯合美國康奈爾大學、丹麥奧胡斯大學、北京大學現代農業研究院、坦尚尼亞農業科學院等單位在_PNAS線上發表了題為Modeling 0.6 million genes for the rational design of functional cis-regulatory variants and de novo design of cis-regulatory sequences_的研究論文,實現了轉錄調控序列的人工智慧設計。
儘管轉錄調控已被發現了半個多世紀,人類仍然無法像理解編碼區DNA序列的密碼子那樣,理解轉錄調控區DNA序列中每個鹼基的功能。如何給DNA序列加上“標點符號”以定義motif?Motif的數量、類別、方向、組合、順序以何種數學函式對映到基因的表達量?這些問題(即轉錄調控區的語法)至今未能總結為普適而簡約的定律。這一基礎理論問題的滯後限制了三個應用研究領域的發展:(1)如何打破連鎖不平衡的影響,從表達調控區的自然變異(包括常見變異以及關聯分析無能為力的低頻變異和罕見變異)中高通量發掘功能變異,為雜交育種提供原料?(2)轉錄調控區的基因編輯往往採用“大規模突變+表型篩選”的方式,具有一定的盲目性且費時費力。如何在轉錄調控區編輯之前進行理性設計?(3)DNA的變異空間極其龐大,以一段140bp的DNA序列為例,其可能性為4的140次方,遠超可觀測宇宙中所有原子的數量,因此地球上所有曾經出現過的生命只探索過DNA無限變異空間的很小一部分。如何高效探索DNA序列的無限變異空間,從頭(de novo)設計有生物學功能的轉錄調控區DNA序列,為合成生物學提供無窮無盡的可用元件?
為了回答上述問題,並充分地涵蓋植物轉錄調控區DNA序列的變異空間,該研究利用17個植物物種(擬南芥、毛果楊、大豆、甜菜、蒺藜苜蓿、黃瓜、葡萄、番茄、土豆、穀子、狗尾草、玉米、高粱、二穗短柄草、水稻、小立碗蘚、萊茵衣藻)的60萬個基因以及6256套轉錄組資料,開發了一個名為PhytoExpr的深度學習模型。該模型以近端轉錄調控區DNA序列(5kb啟動子和5kb終止子)為輸入,預測基因的中位數表達量以及該序列來自哪個物種。為了無偏倚地評估模型的預測準確度,以基因家族為單位劃分訓練集和測試集,確保模型只在它從未見過的基因家族上進行測試。研究者構建了兩種模型結構:CNN+stacking和transformer,並訓練隨機森林模型對上述兩種深度學習模型結構的超引數進行了最佳化,然後比較它們在四種不同任務(圖1c)中的預測精度。結果顯示,採用transformer和多工學習(multi-task learning)架構時,模型在mRNA丰度預測(圖1d)和序列物種來源預測(圖1e)上都有著更高的準確度。
圖1. PhytoExpr模型在測試集上的準確度
為了評估PhytoExpr模型對新物種的泛化能力,研究者使用17個物種中的16個物種訓練模型,在模型沒有見過的新物種的新基因家族上測試其準確度。結果顯示,除萊茵衣藻外,模型可以對從未見過的物種中的從未見過的基因家族作出可靠的預測(圖2)。這表明PhytoExpr可以有效地擴充到與模型訓練集包含的物種有相近進化關係的新物種中。而萊茵衣藻與其他植物分化了約10億年,其轉錄調控的語法可能已經大相徑庭,因此沒有見過萊茵衣藻的深度學習模型無法對該物種觸類旁通。
圖2. PhytoExpr的跨物種泛化能力
作者進一步使用PhytoExpr評估了玉米每個基因的轉錄調控區每個鹼基對基因表達的影響(圖3a、b),並將鹼基重要性得分與鹼基保守性、轉錄因子結合位點進行了比較。結果顯示,高保守鹼基(圖3d)、與轉錄因子結合的鹼基(圖3f)都顯著富集在PhytoExpr預測的高重要性核苷酸中。這表明雖然PhytoExpr沒有使用功能註釋資料(例如Conserved Non-coding Sequence、ChIP-Seq等)進行訓練,PhytoExpr仍能夠識別出調控區序列中的功能元件。
圖3. 利用PhytoExpr實現單核苷酸解析度的定量功能註釋
接下來作者使用PhytoExpr解決前文中提到的三個應用問題。首先,利用PhytoExpr模型系統評估了1730萬個來自玉米HAPMAP3的SNP對基因表達的影響(圖4a),發現模型預測的大效應SNP中顯著富集罕見變異(MAF < 0.01),說明這些變異更可能受到負選擇(圖4b),同時SNP效應評分與SNP到TSS或TTS的距離有很強的相關性(圖4c)。因此研究者猜測PhytoExpr預測的大效應SNP可能與自然群體中基因表達水平的變異存在很強的相關性。利用以前報導的基於282個玉米自交系的7個不同組織轉錄組eQTL資料,依據_cis_-eQTL曼哈頓圖中的關聯強度對SNP進行排序(圖4d),發現_cis_-eQTL中排序靠前的SNP在模型預測的大效應SNP中顯著富集(圖4e),證明PhytoExpr在轉錄調控區功能變異發掘中的有效性。
圖4. 利用PhytoExpr定量分析自然變異對基因表達的影響
第二,作者開發了兩種演算法利用PhytoExpr改進自然啟動子。第一種策略稱為基於重要性分數的半暴力演算法(圖5a),利用該方法對四個玉米調控區序列進行設計,並得到了預期的表達量(圖5b、c)。第二種策略稱為虛擬進化,即在遺傳演算法中使用PhytoExpr作為選擇運算元(圖5d)。以植物啟動子作為初始序列,透過對特定區域的多輪虛擬進化(圖5g, 5h),該策略成功提高了目標啟動子的轉錄強度(圖5i)。
圖5. 轉錄調控區DNA序列的理性設計
第三,作者利用虛擬進化技術實現了轉錄調控區DNA序列的從頭設計。隨機序列在計算機中經過多代虛擬進化,產生了適用於擬南芥的增強子(圖5e)和適用於玉米的增強子(圖6a),這些增強子雖然和自然序列沒有相似性,但是可以分別在擬南芥(圖5f)和玉米(圖6e)中啟動報告基因的表達。因此,將PhytoExpr模型嵌入遺傳演算法,可以實現DNA序列在計算機中的進化,高效地探索DNA序列的無限變異空間,為植物合成生物學提供無限的元件。
圖6. 透過虛擬進化產生玉米增強子
中國農業大學博士研究生李天禕、許輝和博士後滕守振為共同第一作者,汪海教授為通訊作者。該研究得到了“農作物基因資源闡析”國際大科學計劃(G2P計劃)、國家自然科學基金、中央高校基本科研業務費、中國農業大學2115人才培育工程的經費支援。美國康奈爾大學Edward Buckler教授、丹麥奧胡斯大學Guillaume Ramstein助理教授、北京大學現代農業研究院宋寶興研究員、坦尚尼亞農業科學院Revocatus Bahitwa農業研究專員對該研究工作提供了寶貴建議。
論文連結:
www.pnas.org/doi/10.1073/pnas.2319811121