編輯 | ScienceAI
現代醫療保健系統會產生大量高維臨床資料 (HDCD),例如肺功能圖、光體積變化描記圖法 (PPG)、心電圖 (ECG) 記錄、CT 掃描和 MRI 成像,這些資料無法用單個二進位制或連續數字來概括。
瞭解我們的基因組與 HDCD 之間的聯絡不僅可以提高我們對疾病的瞭解,而且對於疾病治療的發展也至關重要。
近日,Google Research 的基因組學團隊在利用 HDCD 表徵疾病和生物學特徵方面取得了進展。
研究團隊提出了一種無監督深度學習模型,即低維嵌入基因發現的表示學習 (REGLE),用於發現基因變異與 HDCD 之間的關聯。
REGLE 作為一種新穎的基因發現方法,可以利用高維臨床資料中的隱藏資訊,其計算效率高,不需要疾病標籤,並且可以整合來自專家定義知識的資訊。
總體而言,REGLE 包含的臨床相關資訊超出了現有專家定義的特徵所捕獲的資訊,從而可以改善基因發現和疾病預測。
相關研究以「Unsupervised representation learning on high-dimensional clinical data improves genomic discovery and prediction」為題,於 7 月 8 日釋出在《Nature Genetics》上。
論文連線:https://www.nature.com/articles/s41588-024-01831-6
揭示 HDCD 中的隱藏資訊
研究基因與 HDCD 之間聯絡的一種簡單方法是對每個資料座標執行 GWAS,例如,可以研究醫學影像中每個畫素值的變化。這種方法計算成本高,並且由於鄰近座標之間的高相關性和大量的多重測試負擔,發現顯著關聯的能力較低。
一種更常用的方法是專注於從 HDCD 中提取的少量專家定義特徵 (Expert-defined Features,EDF) 作為 GWAS 的目標特徵或表型。EDF 可以包括臨床已知的特徵,例如肺量圖的用力肺活量 (FVC) 或 1 秒用力呼氣量 (FEV1)。
雖然這些 EDF 是專家發現的重要特徵,但假設它們可能無法全面捕獲 HDCD 中編碼的訊號,因此對這些訊號執行 GWAS 可能無法充分利用 HDCD 的潛力。
REGLE 旨在使用變分自動編碼器 (VAE) 模型克服這些限制。該方法包括三個主要步驟:
(1) 透過 VAE 學習 HDCD 的非線性、低維、解糾纏表示(即編碼或嵌入);
(2) 對每個編碼座標獨立進行 GWAS;
(3) 使用來自編碼座標的多基因風險評分 (PRS) 作為一般生物功能的遺傳評分,然後可能將這些評分組合起來為特定疾病或特徵建立 PRS(給定少量疾病標籤)。
值得注意的是,REGLE 還允許在修改後的 VAE 架構中將相關 EDF 選擇性地包含在解碼器的輸入中,從而鼓勵編碼器僅學習 EDF 未表示的殘差訊號。
檢測肺和迴圈功能的新基因位點
研究人員使用兩種高維臨床資料模式展示了 REGLE 的功能:測量肺功能的肺量圖和測量心血管功能的 PPG。兩者都可以在診所或消費者可穿戴裝置中以非侵入性、相對便宜的方式收集,並且這兩種模式都有眾所周知的特徵)。
與具有相同維度的肺量圖和 PPG 特徵的全基因組關聯研究相比,REGLE 對學習編碼的研究恢復了與肺和迴圈功能相關的大多數已知基因位點(loci),同時還檢測到了其他位點(例如,PPG 的重要位點增加了 45%)。如果這些位點在進一步的分析和溼實驗室實驗中得到驗證,它們有可能成為新的藥物靶點。
改進的遺傳風險評分
多基因風險評分 (PRS) 是許多遺傳變異對特定特徵的估計影響的總結,以單個數字表示。透過對 REGLE 嵌入進行全基因組關聯研究建立的 PRS 可以僅使用少量疾病標籤進行組合,以生成針對該特定疾病的 PRS。
研究人員觀察到,與現有方法(例如由專家定義的特徵、PCA 和 PRS)相比,由肺量圖編碼建立的肺功能 PRS 改善了 COPD 和哮喘預測,並且比風險譜兩端的特徵 PRS 更有效地對風險組進行分層。哮喘和 COPD 的多個獨立資料集(COPDGene、eMERGE III、Indiana Biobank 和 EPIC-Norfolk)中的多個指標(AUC-ROC、AUC-PR 和 Pearson 相關性)在統計學上顯著改善,如下所示。
類似地,從 PPG 的 REGLE 嵌入中得到的 PRS 可以改善高血壓和收縮壓 (SBP) 預測。在三個獨立資料集(COPDGene、eMERGE III 和 EPIC-Norfolk)以及英國生物庫的保留測試集中評估了由 PPG 編碼和 PPG 特徵生成的高血壓和 SBP PRS。
觀察到,在多個資料集中,使用來自 PPG 編碼的 PRS 比使用來自專家定義特徵的 PRS 具有一致的改進趨勢,無論是高血壓還是 SBP。
部分可解釋的嵌入
利用 REGLE 的生成特性,透過固定專家定義特徵的值並改變一個編碼座標而將其他編碼座標保持為零來研究編碼座標對肺量圖形狀的影響。然後,僅使用訓練模型的解碼器部分生成相應的肺量圖。
典型的流量-體積肺量圖由兩個不同的部分組成:(1)相對較短的部分以達到峰值流量,其中流量隨著體積的增加而單調增加;(2)肺量圖的主要部分,其中流量單調減少。
下圖顯示,改變第一個座標相當於擴大或縮小第二部分(負斜率),同時保持第一部分相對固定。事實上,曲線第二部分的凹度被肺病學家稱為凹陷,這是氣道阻塞的指標,標準 EDF 無法很好地表示出來。
闡明人類特徵和疾病的遺傳基礎
REGLE 是一種無監督學習方法,可執行遺傳分析、改進的新基因位點發現和風險預測。由於難以大規模手動發現 EDF,因此無監督學習 HDCD 表示對基因組發現很有吸引力。
REGLE 框架還透過修改傳統的 VAE 架構來支援在建模中原則性地使用這些特徵。在兩種臨床資料模式(肺量圖和 PPG)中展示了 REGLE,它們可以在臨床環境中進行常規測量,也可以透過智慧手機或可穿戴裝置被動和非侵入性地測量。
REGLE 提供了一種在沒有標記資料的情況下識別遺傳對器官功能影響的機制,並允許將專家特徵納入模型。它還提供了一種使用很少的標籤建立疾病和特徵特異性 PRS 的方法。未來,這種類似的方法將越來越多地用於進一步闡明人類特徵和疾病的遺傳基礎。
參考內容:https://research.google/blog/harnessing-hidden-genetic-information-in-clinical-data-with-regle/