眾所周知,全基因組關聯分析(GWAS)發現的很多變異位點基本為非編碼,這些變異位點1)要麼調控基因表達(eQTL); 2)要麼影響增強子活性; 3)要麼影響轉錄因子(TF)結合特異性; 4)要麼啥也不是。
針對以上四種情況:
1)是否調控基因表達(eQTL)可通過GTEx(https://gtexportal.org/home/)查詢。
2)是否影響增強子活性可通過之前的推文查詢:感興趣的SNP/區域上是否有增強子/轉錄因子?增強子/轉錄因子調控哪個靶基因?(EnhancerDB)
3)是否影響轉錄因子(TF)結合特異性則可通過今天介紹的資料庫進行查詢:GVATdb(http://renlab.sdsc.edu/GVATdb/search.html)
上週Nature發了一篇文獻Systematic analysis of binding of transcription factors to noncoding variants
。
該文獻針對95,886個常見變異位點(SNPs,歐洲和亞洲人群的MAF> 1%)與270個轉錄因子的結合特異性進行了大量的SNP-SELEX實驗,並以此構建了GVATdb資料庫。
下圖是針對轉錄因子或者SNP位點進行檢索的實驗結果圖:
每列的釋義如下:
oligo_auc:轉錄因子與40bp DNA 序列的結合得分, 用AUC(Area under Curve)值表示;
oligo_pval:對OBS進行25,000次蒙特卡洛隨機化後得到的p值。p<0.05表示TF與基因組片段的特異性“結合”;
Alt:SNP(hg19)的替代等位基因;
Ref:SNP(hg19)的參考等位基因;
ref_auc:ref 與 TF 的結合得分;
alt_auc:alt 與 TF 的結合得分;
pbs:結合傾向性得分,公式為:Ref 等位基因得分減去 Alt 等位基因得分,負值表示轉錄因子更傾向於結合 Alt 等位基因;
p-value:對 PBS 進行25,000次蒙特卡洛隨機化後得到的 p 值。 p<0.01 表示 TF 與 Ref 等位基因和 Alt 等位基因結合“存在差異”。
此外,對於沒有納入 SNP-SELEX 實驗的 SNP 位點,作者還建立了 deltaSVM 模型,用於預測未納入的 SNP 位點與 TF 的結合特異性,如下圖所示:
參考文獻:Yan J, Qiu Y, Dos Santos A M R, et al. Systematic analysis of binding of transcription factors to noncoding variants[J]. Nature, 2021: 1-5.
由於這個網站相當簡單易懂,本次推文就不多介紹啦,祝各位週末愉快~