如何基於R包做GO分析?實現秒出圖

皮蛋笔记發表於2024-06-12

GO分析

基因本體論(Gene Ontology, GO)是一個用於描述基因和基因產品屬性的標準術語體系。它提供了一個有組織的方式來表示基因在生物體內的各種角色。基因本體論通常從三個層面對基因進行描述:細胞成分(Cellular ComponentCC)、生物學過程(Biological ProcessBP)和分子功能(Molecular FunctionMF)。

示例:

細胞成分(Cellular ComponentCC:這個層面描述了基因產物(如蛋白質)在細胞內的定位。例如,它們可能位於細胞核、細胞質、線粒體膜或其他細胞器上。這有助於瞭解基因產物在細胞內的作用和功能。

生物學過程(Biological ProcessBP:這個層面描述了基因參與的生物學過程。這些過程可能包括細胞生長、訊號傳導、基因表達調控、代謝途徑等。透過了解基因參與的生物學過程,我們可以更好地理解生物體的生理功能和疾病發生機制。

分子功能(Molecular FunctionMF:這個層面描述了基因產物在分子層面的功能,通常涉及到與其他分子的相互作用或催化生化反應。例如,某個基因產物可能是一個酶,它能夠催化某個特定的生化反應;或者它可能是一個結構蛋白,參與細胞骨架的組裝和維持。

本期將介紹使用R clusterProfiler包對基因進行GO功能富集分析、OrgDb包製作以及結果視覺化。使用R clusterProfiler包對基因進行富集,需要匯入目的基因(前景基因)相對應物種的參考基因組(背景基因),現階段“Bioconductor”已有十幾種常見動物,如人類、小鼠等物種的OrgDb。但仍然有許多物種不在Bioconductor的OrgDb列表裡,但存在參考基因組,如山羊,綿羊等,因此大家可以選擇性使用。

上篇文章我們已經用Perl指令碼將蛋白名批次轉化為了基因名,下面首先用R語言將基因名找到基因ID,以作後續分析。

1.在上篇文章轉換的結果targetSymbol檔案中提取基因名,如圖所示,建立“基因.txt”檔案

2.匯入檔案,執行程式碼,得到id.txt檔案

library("org.Hs.eg.db")    ##載入物種包
##id轉換
rt=read.table("基因.txt",sep="\t",check.names=F,header=F) ##讀取資料
genes=as.vector(rt[,1])
entrezIDs <- mget(genes, org.Hs.egSYMBOL2EG, ifnotfound=NA)
entrezIDs <- as.character(entrezIDs)
out=cbind(rt,1,entrezID=entrezIDs)
colnames(out)=c("symbol","logFC","entrezID")
write.table(out,file="id.txt",sep="\t",quote=F,row.names=F)

3.GO分析,將上述分析得到的id.txt檔案匯入,執行以下程式碼以做GO分析

4.得到GO檔案,繪製氣泡圖和柱狀圖

下篇筆記將會展示如何應用R語言作KEGG分析,敬請關注與期待。整理不易用你們發正刊(CNS)的金手指為本篇內容點贊支援,本文程式碼與檔案在以下連結。

連結:https://pan.baidu.com/s/1CW6Trynp9DNPhyCncFBLfA

提取碼:0jsj

文章轉載自公眾號:皮蛋筆記,歡迎關注,隨時獲取第一手文章內容。

相關文章