lncRNA資料分析傳送門

weixin_33782386發表於2018-01-22

可以參考我們前面組織的3個學習小組:

表觀組學小組開始招人啦

生信技能樹轉錄組板塊學習小組招募啟事

450K甲基化晶片資料處理傳送門

ChIP-seq基礎入門傳送門

轉錄組入門傳送門

step1: 計算資源的準備

如果有差不多配置的伺服器,就可以從SRA/FASTQ格式資料開始走全套流程。不懂配置,請看前面轉錄組和表觀組的傳送門。

如果只有個人電腦,那麼直接下載表達矩陣開始分析也是可以的。

step2: 讀文獻,檢視GEO資料

文章是 Annotation and cluster analysis of spatiotemporal- and sex-related lncRNA expression in Rhesus macaque brain , 作者測了 4個年齡段的恆河猴:1年(child),4年(Youth),10年(Adult)和20年(Old); 腦組織新皮質、海馬和小腦不同區域(8個),兩種測序模式(RNA-seq and CAGE-seq),兩種性別,總計(4X8X2X2)128個樣本。所以作者分析可以mRNA和lncRNA在時間,空間以及性別上面的區別。

裡面關於資料和方法寫的很清楚:

RNA-seq and CAGE-seq data have been submitted to the NCBI Gene Expression Omnibus (GEO; https://www.ncbi.nlm.nih.gov/geo/) under accession number GSE87182. The modified WGCNA code and co-expression network and data are available in the Supplemental Material can be downloaded from GitHub (https://github.com/DChenABLife/RhesusLncRNA).

而且裡面詳細的列出了資料處理方法,使用到的軟體,引數,以及步驟,希望大家仔細研讀清楚。

step3:瞭解參考基因組及註釋檔案

這個物種是 Macaca mulatta ,這裡我們只分析轉錄組測序資料, https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE85377

step4: 得到表達矩陣的流程

這一步僅限於有伺服器的朋友,沒什麼好說的了,在轉錄組,表觀組我們都已經詳細講解了。

SRA—>FASTQ—>BAM—>COUNTS 這幾個步驟而已,中間穿插一些質控的手段,每個步驟選擇好合適的軟體即可。可以參考:一個植物轉錄組專案的實戰 http://www.bio-info-trainee.com/2809.html

因為物種比較特殊,所以上游分析的時候需要選擇的參考基因組,參考註釋檔案都會比較麻煩。

幸運的是作者上傳了他上游分析後得到的表達矩陣,大家只需要下載即可:

ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE85nnn/GSE85377/suppl/GSE85377_All_sample_merged_RPKM_ed.xlsx

目前已發現的lncRNA的數量接近mRNA(GENCODE V25, http://www.gencodegenes.org),lncRNA具有scaffolds,molecular sponges等基因調控功能機制,是重要的表觀和轉錄調控因子。儘管lncRNA普遍低保守和低表達,lncRNA卻具有明顯的tissue和 stage-specific表達特徵,因此被認為參與調控不同的生物學功能,尤其是細胞分化和發育。

step5: 差異表達的mRNA和lncRNA

很明顯,得到了表達矩陣之後,根據上面的樣本資訊,可以按照年齡,性別,取樣部位來進行分組找差異。

可以參考:https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts

step6: WGCNA分析

因為樣本數量比較可觀,所以可以進行WGCNA分析。這裡是並不需要選取所有的基因來做WGCNA分析,挑選的標準可以是top變異程度大的基因集合,或者顯著差異表達的基因集合等等。

這裡可以參考:https://github.com/jmzeng1314/my_WGCNA

WGCNA將lncRNA分成18個模組(3635個lncRNA),空間模組中lncRNA表達呈現明顯的組織區域特異性,如:CB (M1, 794個lncRNAs),DG/CA1 (M2, 443個lncRNAs), CA1 (M4, 369個lncRNAs),neocortex (M7, 123個lncRNAs)和OC (M10,57個lncRNAs)。

時間模組中lncRNA表達與年齡有關,而與組織區域不明顯;性別模組中lncRNA表達與性別和年齡都相關。

每個模組就必須做pathway/go等資料庫的註釋分析咯!

step7: 皮爾森相關性分析基因對

基於皮爾森相關性分析,對9904個lncRNAs和26654個 mRNAs進行計算,結果發現5084個lncRNAs和18418個mRNAs 形成了3341261個共表達基因對;例如,lncRNA MIAT與237個mRNAs和93個lncRNAs有共表達關係,對MIAT相關的mRNA進行富集分析,顯示MIAT涉及neuroactive ligand-receptorinteraction, dopaminergic synapse, glutamatergic synapse等生物學功能。

對每個lncRNA模組相關的mRNA進行EnrichedGene Ontology (GO) terms和KEGG pathways研究,從而可以發現模組基因集相關的生物學功能,如M1 lncRNAs (CB module)最顯著富集於 Fanconi anemia 通路。

這個套路在TCGA資料庫裡面已經被玩爛了,大家可以去資料庫裡面搜尋看看。

step8:鑑定全新的lncRNA

這個時候已經不是表達矩陣的事情了,要從新從fastq測序資料開始。

對測序後的fastq資料進行轉錄本的組裝。基於組裝後的轉錄本,通過資料庫註釋去掉編碼蛋白質的mRNA以及資料庫中收集的已知的lncRNA,對剩餘的轉錄本進行生物資訊學分析,最終鑑定出全新的lncRNA,作為後續研究的起點。

Step9:確認lncRNA是否真的是lncRNA

lncRNA具有一系列獨特特性,這些特性與編碼蛋白質的mRNA有或多或少的區別。需要將鑑定出的新lncRNA與資料庫中的lncRNA以及蛋白質編碼基因屬性進行比較,從而確定它們是否為真正的lncRNA。

這些屬性包括,轉錄本長度,表達水平,保守性(外顯子和內含子),GWAS SNP的富集等等。如果這些屬性與已知的lncRNA類似,且與蛋白編碼基因差別大則說明鑑定出的lncRNA為真正的lncRNA。

lncRNA到底能不能翻譯,還得看其自身先天條件——是否具有核糖體結合位點;是否具有開放閱讀框(ORF)。只有兩種條件都符合(滿足開放閱讀框,核糖體結合位點),並且翻譯的多肽在物種間具有一定保守性,那麼該lncRNAc才算是有了翻譯的本錢。

step10:lncRNA其它資料庫

1.DIANA-LncBase v2——http://www.microrna.gr/LncBase

2.LNCediting——http://bioinfo.life.hust.edu.cn/LNCediting/

3.NPInter v3.0——http://www.bioinfo.org/NPInter/

4.lncReg——http://bioinformatics.ustc.edu.cn/lncreg/

5.LNCipedia v4.0——http://www.lncipedia.org

6.LncRNAMAP——http://lncRNAMap.mbc.nctu.edu.tw/

Lnc2Meth (http://www.bio-bigdata.com/Lnc2Meth/) 就是一個基於已有發表文獻結果,對其中涉及到在特定研究疾病中的lncRNA及其甲基化結果進行了整理歸納收錄的資料庫。其中,對於每一個lncRNA都會提供DNA甲基化區域、型別和調控機制,而其是否在文獻報導中有作為診斷分子以及其發表文獻資訊等都有整理。

lncSNP2.0 (http://210.46.80.146/lincsnp/search.php) 當仍不讓的成為大家的首選工具,它是由華中科技大學研究人員開發的專門收錄lncRNA和SNP關聯資訊的資料庫,包含人和小鼠兩個物種。

RegRNA2.0 (http://regrna2.mbc.nctu.edu.tw/index.html) 是由臺灣同胞所研發的,專用來預測RNA功能性的motif序列,其預測內容包含轉錄motif、mRNA降解原件、RNA-RNA結合、翻譯預測等功能。

背景知識

這些知識沒什麼好說的,主要靠看文獻,自己收集整理。

希望大家主要了解這8個方面:LncRNA的定義、LncRNA的發現、LncRNA的分類、LncRNA的功能、LncRNA的作用模式、LncRNA的爭議、LncRNA的常用資料庫以及LncRNA的研究模式。

參考:
http://www.biotrainee.com/thread-2485-1-1.html

相關文章