(史上最全)SNP位點與轉錄因子結合特異性資料庫:GVATdb

橙子牛奶糖發表於2021-02-05

眾所周知,全基因組關聯分析(GWAS)發現的很多變異位點基本為非編碼,這些變異位點1)要麼調控基因表達(eQTL); 2)要麼影響增強子活性; 3)要麼影響轉錄因子(TF)結合特異性; 4)要麼啥也不是

針對以上四種情況:

1)是否調控基因表達(eQTL)可通過GTExhttps://gtexportal.org/home/)查詢。

2)是否影響增強子活性可通過之前的推文查詢:感興趣的SNP/區域上是否有增強子/轉錄因子?增強子/轉錄因子調控哪個靶基因?(EnhancerDB)

3)是否影響轉錄因子(TF)結合特異性則可通過今天介紹的資料庫進行查詢:GVATdbhttp://renlab.sdsc.edu/GVATdb/search.html)

上週Nature發了一篇文獻Systematic analysis of binding of transcription factors to noncoding variants

該文獻針對95,886個常見變異位點(SNPs,歐洲和亞洲人群的MAF> 1%)與270個轉錄因子的結合特異性進行了大量的SNP-SELEX實驗,並以此構建了GVATdb資料庫。

下圖是針對轉錄因子或者SNP位點進行檢索的實驗結果圖:

每列的釋義如下:

oligo_auc:轉錄因子與40bp DNA 序列的結合得分, 用AUC(Area under Curve)值表示;

oligo_pval:對OBS進行25,000次蒙特卡洛隨機化後得到的p值。p<0.05表示TF與基因組片段的特異性“結合”;

Alt:SNP(hg19)的替代等位基因;

Ref:SNP(hg19)的參考等位基因;

ref_auc:ref 與 TF 的結合得分;

alt_auc:alt 與 TF 的結合得分;

pbs:結合傾向性得分,公式為:Ref 等位基因得分減去 Alt 等位基因得分,負值表示轉錄因子更傾向於結合 Alt 等位基因;

p-value:對 PBS 進行25,000次蒙特卡洛隨機化後得到的 p 值。 p<0.01 表示 TF 與 Ref 等位基因和 Alt 等位基因結合“存在差異”。

此外,對於沒有納入 SNP-SELEX 實驗的 SNP 位點,作者還建立了 deltaSVM 模型,用於預測未納入的 SNP 位點與 TF 的結合特異性,如下圖所示:

參考文獻:Yan J, Qiu Y, Dos Santos A M R, et al. Systematic analysis of binding of transcription factors to noncoding variants[J]. Nature, 2021: 1-5.


由於這個網站相當簡單易懂,本次推文就不多介紹啦,祝各位週末愉快~


相關文章