SparCC原理

王哲MGG_AI發表於2024-11-11

SparCC(Sparse Correlations for Compositional Data)是一種專為處理組成型資料(如微生物相對丰度資料)設計的相關性計算方法。它假設大多數物種之間的關係是稀疏的,即在生態系統中,不是所有物種都直接互相作用。其核心思想是透過計算組成資料中各物種的稀疏相關矩陣,避免因組成效應(compositional effects)而帶來的偏差。

SparCC 的基本原理

  1. 組成效應問題

    • 微生物資料中的相對丰度資料是組成型資料,總和為1,這意味著一個物種丰度的增加會導致其他物種丰度的相對減少。傳統的相關性計算(如皮爾遜相關)會因為這種組成效應而引入誤導性關聯。
    • 組成效應使得微生物物種之間的關聯看起來比實際更強,導致了大量的虛假關聯。
  2. 偽丰度(Pseudocounts)

    • SparCC 首先在資料中引入一個小的偽丰度值,以減輕由於資料稀疏性(存在大量零值)帶來的影響。
    • 這樣可以確保計算的穩定性,因為零值可能導致相關性計算的偏差。
  3. 計算對數比率(Log Ratios)

    • SparCC 使用物種丰度的對數比率進行計算,從而將組成型資料轉化為可以進行傳統統計分析的資料形式。
    • 對任意兩個物種 XiX_iXjX_j,其對數比率可以表示為 log⁡(Xi/Xj)\log(X_i / X_j)。這樣可以部分減輕組成效應的影響。
  4. 協方差估計

    • SparCC 假設物種間的關係是稀疏的,即大多數物種對的相關性為零。透過構建稀疏的協方差矩陣,SparCC 識別出那些具有顯著關聯的物種對。
    • 為了估計協方差矩陣,SparCC 使用了一種迭代演算法,透過在對數比率空間中計算物種間的稀疏相關性,最終得到原始空間的相關性估計。
  5. 稀疏矩陣的迴歸分析

    • SparCC 的演算法會迭代計算多個隨機偽資料集的協方差矩陣,來估計真實協方差,並過濾掉不顯著的關聯,最終得到一個稀疏的相關矩陣。
  6. 計算 p 值

    • SparCC 透過隨機置換方法計算每個相關係數的 p 值,以確保結果的顯著性,從而減少虛假正相關。

SparCC 的優勢

  • 適應組成型資料:專門設計用於相對丰度資料,避免了組成效應帶來的誤導性關聯。
  • 適合稀疏資料:稀疏矩陣假設符合微生物生態系統中大多數物種非直接相互作用的情況。
  • 高效性:SparCC 透過對數比率和稀疏協方差矩陣計算,較為高效地推斷出物種間真實的關聯性。

SparCC 的應用限制

  • 假設稀疏性:SparCC 假設網路是稀疏的,如果資料的真實關聯並非稀疏(即有大量相互關聯的物種對),SparCC 的表現可能不理想。
  • 需要偽丰度處理:引入偽丰度可能會在一定程度上影響資料的真實性。
  • 對零值敏感:儘管 SparCC 引入了偽丰度來處理稀疏性,但大量零值依然可能影響最終結果的準確性。

總結

SparCC 是一種有效的工具,專為組成型資料(如微生物相對丰度資料)設計,能夠識別物種間的真實關聯性。透過對數比率計算和稀疏協方差估計,SparCC 有效地緩解了組成效應的干擾,適合用於微生物共現網路的構建。