組織特異性可變剪接分析演算法 SpTransformer 的概念圖。(來源:浙大)
作者 | 浙江大學良渚實驗室沈寧/劉志紅課題組
編輯 | ScienceAI
RNA 可變剪接(Alternative splicing)是基因轉錄後一種重要的調控機制,也是生物體多樣性和蛋白質多功能性的重要來源之一。人類約 90% 以上的基因存在可變剪接,不同組織與細胞型別中可變剪接的多元性促進了細胞表型的多樣性。同時,引起 RNA 可變剪接的變異也與人類多種遺傳疾病相關。
值得注意的是,RNA 可變剪接具有組織特異性,相同的 pre-mRNA 序列能以組織特異性的形式發生可變剪接,從而產生多樣性的轉錄組和蛋白質組表達。然而,現有演算法無法預測組織特異性的可變剪接,因此亟需開發能夠精準預測組織特異性可變剪接的演算法工具,加深我們對於遺傳變異的解讀及後續研究。
近日,浙江大學良渚實驗室沈寧/劉志紅課題組開發了基於 Transformer 架構的多模態深度學習模型 SpliceTransformer(簡稱 SpTransformer),用於預測 pre-mRNA 序列中的組織特異性可變剪接位點。SpTransformer 可以用於解析組織特異性剪接變異相關的疾病,為疾病相關遺傳變異提供基於可變剪接機制的全新見解。
相關研究以《SpliceTransformer predicts tissue-specific splicing linked to human diseases》為題,於 2024 年 10 月 23 日發表在《Nature Communications》上。
論文連結:https://www.nature.com/articles/s41467-024-53088-6
SpTransformer:基於 Transformer 的計算架構
SpTransformer 在訓練資料和演算法架構上均有所創新。
圖 1:SpTransformer 模型僅以序列為輸入,預測 15 種人體組織中的組織特異性剪接。該模型可用於評估遺傳變異並預測組織特異性的剪接變化,其效能明顯優於其他已有演算法。(來源:論文)
SpTransformer 基於 GTEx 人體組織 RNA-seq 資料和額外的哺乳動物(恆河猴、小鼠、大鼠)組織的 RNA-seq 資料訓練,從多個資料集中學習可變剪接相關的序列特徵。模型使用 one-hot 編碼的 pre-mRNA 序列作為輸入。序列經過卷積編碼器處理後,透過一個 8 層包含自注意力模組的 Transformer 網路,輸出多標籤分類結果。
該方法基於 9000nt~15000nt 的長序列上下文資訊,對輸入序列中央的 1000nt 長度序列同時做預測,既能預測出序列中存在的可變剪接位點,也能為每個位點進行多標籤分類,預測位點在 15 個主要人體組織中是否會被使用到。
為了考慮儘可能長的序列上下文資訊,模型結合了卷積編碼和 Sparse Sinkhorn Attention 稀疏注意力演算法,鼓勵模型考慮遠端序列之間以片段為單位的互作效果,而避免逐一計算鹼基和鹼基之間的長距離互作關係,這樣的做法允許模型以線性複雜度處理大量資料,從而規避了傳統 Transformer 模型處理超長序列時無法承受視訊記憶體開銷的問題。最終,該模型對可變剪接的預測結果明顯優於已有演算法,且創新地實現了對組織特異性剪接的預測(圖 1)。
之後,研究者針對模型的可解釋性進行了探索。研究者透過視覺化分析模型考慮不同序列元件的權重,發現 SpTransformer 模型可以成功發現 1000 bp 以外的遠端序列調控元件對可變剪接的影響。同時,模型在預測不同組織的可變剪接時,會考慮不同的序列 motif,其中既有已知的經典序列調控元件,也包含未被研究過的 de novo motif。
預測疾病相關的組織特異性可變剪接
隨後,研究者應用 SpTransformer 預測單核苷酸突變(single nucleotide variant,SNV)對組織特異性剪接的影響。透過分別預測突變前序列和突變後序列的剪接情況,並計算它們預測分數的差異,模型以數學方法將突變對目標區域可變剪接的影響量化為 ΔSplice 分數(圖 2)。
圖 2:SpTransformer 模型可用於評估突變對剪接的影響。(來源:論文)
研究者批次預測了大型資料庫 ClinVar 中收錄的 1,273,053 個 SNV,發現突變的致病性和影響可變剪接的情況有較強的關聯。在非編碼區域突變中,透過 SpTransformer 給出的 ΔSplice 分數,能以超過 0.98 的 ROC-AUC 區分致病(Pathogenic)和良性(Benign)突變。同時,模型將大量原本標註為效果未知(Uncertain significance)的突變註釋為影響可變剪接,一定程度上填補了突變效應註釋的空白。
圖 3:SpTransformer 模型可用於評估突變對組織特異性剪接的影響,並從大規模資料分析中識別可能影響組織特異性剪接的突變及其富集的基因。(來源:論文)
儘管可變剪接的組織特異性早已為人所知,但突變如何影響這種特異性剪接仍然是個未充分探索的領域。為評估單核苷酸變異(SNV)對組織特異性剪接的影響,研究者開發了 Tissue z-score 分數,用以衡量突變對特定組織中剪接模式的影響是否顯著高於其他組織。
透過分析 GTEx RNA-seq 資料中的非組織特異性剪接位點,並模擬這些位點附近發生隨機突變,研究者建立了用於參考的統計學分佈。當待預測 SNV 的 Tissue z-score 明顯大於參考分佈中的值時,就認為該 SNV 具有組織特異性。利用這種方法,研究者從 ClinVar 資料庫中識別出可能影響組織特異性剪接的突變及其富集的基因(圖 3)。研究結果顯示,這些基因多與相關組織的遺傳疾病有關,但不一定表現出組織特異性的表達模式。
圖 4:演算法針對三種精神疾病資料展開分析,從組織特異性剪接改變角度解讀精神疾病發生的潛在機制。(來源:論文)
為了深入探討 SpTransformer 在疾病診斷和治療中的應用潛力,研究團隊利用該演算法分析了與自閉症(Autism),精神分裂症(Schizophrenia)和雙相精神障礙(Bipolar disorder)相關的超過 17 萬個樣本的全外顯子組測序結果。這些樣本涵蓋了患者、患者家庭成員和健康對照組。從超過千萬的未知突變中,SpTransformer 篩選出大量可能影響可變剪接的突變。
研究者深入分析了這些影響剪接的突變,發現腦組織特異性的剪接改變在三種型別的精神疾病中均有顯著富集。進一步的基因表達量分析揭示,這些突變所在的基因,不僅包括在大腦中特異性表達的,也包含在多陣列織中廣泛表達的基因,表現出雙峰分佈的特點。
GO 富集分析(Gene Ontology enrichment analysis)顯示,由模型篩選出的基因與腦組織功能存在緊密聯絡(圖 4),在腦組織中特異性表達的基因通常與突觸訊號傳導通路相關,而非組織特異性表達的基因則富集在細胞骨架相關通路。這一發現進一步揭示了腦組織中特異性剪接和特異性表達之間存在相對獨立性,即使是在多種組織中普遍表達的基因,也可能透過剪接變異對腦組織產生重要影響,進而可能引發相關疾病。
同時,雖然從這三種精神疾病中篩選出的基因富集到了某些相同的通路,但每種疾病有其獨特的致病基因及突變。大規模文獻搜尋結果顯示,由 SpTransformer 識別的許多基因已有相關文獻支援其與特定疾病的關聯,證明了該工作預測的準確性。此外,還有較多新發現的基因,目前尚未有相關研究報導,這些基因可能為未來的精神疾病研究提供新的線索和方向。
此外,研究者也針對腎臟特異性剪接進行了進一步的資料分析。模型在糖尿病腎病相關資料上進行實戰,經由 RNA-seq 方法進行驗證,以 83% 的準確率預測出了影響腎臟中可變剪接的突變。
具有臨床價值,且開源
以上結果表明,SpTransformer 從組織特異性可變剪接的角度出發,有潛力發現傳統基因表達量分析無法找到的疾病成因。這為理解疾病背後的遺傳因素提供了除基因表達水平以外的重要視角。進一步地,基於組織特異性的可變剪接分析,有望成為解析複雜疾病遺傳機制的關鍵方法之一。
綜上,該研究開發了一個精準地預測具有組織特異性的可變剪接的演算法工具 SpTransformer,並透過大量真實突變資料,驗證了其在遺傳診斷中預測組織特異性影響 RNA 可變剪接的致病突變的能力,具有重要臨床價值和研究意義。
文章相關程式碼已開源,釋出在 GitHub 平臺(https://github.com/ShenLab-Genomics/SpliceTransformer)。
此外,研究者還提供了一個便捷的線上服務平臺(http://tools.shenlab-genomics.org/tools/SpTransformer),使使用者能利用 SpTransformer 快速預測突變對組織特異性剪接的影響。
團隊介紹及招聘
浙江大學良渚實驗室沈寧研究員和劉志紅院士為該論文的共同通訊作者,交叉培養博士生遊寧遠為本文的第一作者。浙江大學管敏鑫研究員、裴善贍研究員、南京大學蔣松博士、施勁松博士、復旦大學孫思琦研究員協助監督指導了本項工作,良渚實驗室多位研究員及沈寧課題組多名成員對該工作作出了重要貢獻。
良渚實驗室沈寧課題組圍繞「組學與精準醫學分析演算法開發與應用」開展臨床轉化密切相關的研究,運用生物資訊學資料整合分析與人工智慧演算法,並結合實驗篩選平臺進行藥物研發與精準治療。
課題組目前有多項具有重要應用價值的課題正在推進,與著名醫學專家主導的實驗室有合作關係,誠招具有實驗生物、計算生物背景的博士後和研究助理。
詳細招聘資訊見:https://person.zju.edu.cn/shenning
簡歷投遞(有意者請將個人簡歷等材料傳送至):shenningzju@zju.edu.cn