一個完整的RNA-seq分析pipeline
目錄截圖
image.png
得到FPKM、TPM、Readscounts
cd /workspace/rnaseq/ref-only-expression wget chmod +x stringtie_expression_matrix.pl ./stringtie_expression_matrix.pl --expression_metric=TPM --result_dirs='RNAseq_Norm_Lane1,RNAseq_Norm_Lane2,RNAseq_Tumor_Lane1,RNAseq_Tumor_Lane2' --transcript_matrix_file=transcript_tpm_all_samples.tsv --gene_matrix_file=gene_tpm_all_samples.tsv ./stringtie_expression_matrix.pl --expression_metric=FPKM --result_dirs='RNAseq_Norm_Lane1,RNAseq_Norm_Lane2,RNAseq_Tumor_Lane1,RNAseq_Tumor_Lane2' --transcript_matrix_file=transcript_fpkm_all_samples.tsv --gene_matrix_file=gene_fpkm_all_samples.tsv ./stringtie_expression_matrix.pl --expression_metric=Coverage --result_dirs='RNAseq_Norm_Lane1,RNAseq_Norm_Lane2,RNAseq_Tumor_Lane1,RNAseq_Tumor_Lane2' --transcript_matrix_file=transcript_coverage_all_samples.tsv --gene_matrix_file=gene_coverage_all_samples.tsv head transcript_tpm_all_samples.tsv gene_tpm_all_samples.tsv
Ballgown差異分析程式碼
# change working directorycd /workspace/rnaseq/# start RR# In R, run the following commandslibrary(ballgown) library(genefilter) library(dplyr) library(devtools)# create the phenotype data for each sample#pheno_data = read.csv("RNA_data.csv")pheno_data <- data.frame(ids=c("RNAseq_Norm", "RNAseq_Norm_Lane1", "RNAseq_Norm_Lane2", "RNAseq_Tumor", "RNAseq_Tumor_Lane1", "RNAseq_Tumor_Lane2"), type=c("normal", "normal", "normal", "tumor", "tumor", "tumor"))# Load ballgown data structures for each samplebg = ballgown(dataDir = "ballgown", samplePattern = "RNAseq", pData=pheno_data)# Filter low-abundance genesbg_filt = subset (bg,"rowVars(texpr(bg)) > 1", genomesubset=TRUE)# Identify signficant differently expressed Transcriptsresults_transcripts = stattest(bg_filt, feature="transcript", covariate="type", getFC=TRUE, meas="FPKM")# Identify significant differently expressed Genesresults_genes = stattest(bg_filt, feature="gene", covariate="type", getFC=TRUE, meas="FPKM")# Add transcript/gene names and transcript/gene IDs to the results_transcripts data frameresults_transcripts = data.frame(transcriptNames=ballgown::transcriptNames(bg_filt),transcriptIDs=ballgown::transcriptIDs(bg_filt),geneNames=ballgown::geneNames(bg_filt),geneIDs=ballgown::geneIDs(bg_filt),results_transcripts)# Add common gene names ontmp <- unique(results_transcripts[,c("geneNames", "geneIDs")]) results_genes <- merge(results_genes, tmp, by.x=c("id"), by.y=c("geneIDs"), all.x=TRUE)# Sort from the smallest P value to largestresults_transcripts = arrange(results_transcripts,pval) results_genes = arrange(results_genes,pval)# Output as CSVwrite.csv(results_transcripts,"RNAseq_transcript_results.csv",row.names=FALSE) write.csv(results_genes,"RNAseq_genes_results.csv",row.names=FALSE)# Output as TSVwrite.table(results_transcripts,"RNAseq_transcript_results.tsv",sep="t", quote=FALSE, row.names=FALSE) write.table(results_genes,"RNAseq_gene_results.tsv",sep="t", quote=FALSE, row.names=FALSE)# Identify genes with p value < 0.05subset(results_transcripts,results_transcripts$pval<0.05) subset(results_genes,results_genes$pval<0.05)# quit Rq()
差異分析視覺化
# start RR# set the working directorysetwd("~/workspace/rnaseq")# load librarieslibrary(ggplot2) library(viridis)# load in the ballgown DE datade_genes <- read.delim("RNAseq_gene_results.tsv")# load in the FPKM values from stringtieexpr_tumor <- read.delim("~/workspace/rnaseq/ballgown/RNAseq_Tumor_gene_abundance.out")# merge the expression and DE resultsmerged_results <- merge(de_genes, expr_tumor, by.x=c("id"), by.y=c("Gene.ID"), all.x=TRUE)# log2 the fold changemerged_results$log2_fc <- log2(as.numeric(merged_results$fc))# remove entries with an FPKM of 0merged_results <- merged_results[merged_results$FPKM > 1,]# create an MA plot for both genes and transcriptspdf(file="ma_plot.pdf", height=5, width=10) ggplot(data=merged_results) + geom_point(aes(y=log2_fc, x=FPKM, color=qval)) + ylim(c(-10, 10)) + xlim(c(0, 1000)) + scale_colour_viridis(direction=-1, trans='sqrt') + theme_bw() + xlab("FPKM") + ylab("log2 Fold Change") dev.off()
ma_plot
作者:二貨潛
連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4650/viewspace-2819044/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 一個完整的RNA-seq分析pipeline之HISAT2+ StrintTie+ Ballgown以及StringTie和Kallisto的比較(包括得到FPKM、TPM、readscounts)...Go
- 一個 Pipeline 的使用場景
- netty原始碼分析之pipeline(一)Netty原始碼
- Rna-seq edgeR
- Netty Pipeline原始碼分析(2)Netty原始碼
- Netty Pipeline原始碼分析(1)Netty原始碼
- 實現一個完整的promisePromise
- 一個完整的scrapy 專案
- 推薦一個 PHP 管道外掛 League\PipelinePHP
- netty原始碼分析之pipeline(二)Netty原始碼
- 一個完整的COM通訊類
- 一個完整的go 日誌元件Go元件
- redis中multi與pipeline介紹分析Redis
- Tomcat原始碼分析 (四)----- Pipeline和ValveTomcat原始碼
- ES 筆記三十九:Pipeline 聚合分析筆記
- InterlliJ IDEA搭建一個完整的ssh框架Idea框架
- 一個完整的軟體研發流程
- Meltdown的分析——完整版;-)
- [開源]一個完整的黃頁小程式
- 一個專案完整的管理流程有哪些
- Go的程式設計模式一-管道PipelineGo程式設計設計模式
- flutter仿boss直聘,一個比較完整的例子(一)Flutter
- 開源一個功能完整的SpringBoot專案框架Spring Boot框架
- sklearn中的Pipeline
- Laravel 中介軟體處理的核心機制 Pipeline 關鍵分析Laravel
- 打造企業級pipeline服務的18個疑問
- [譯]Python中的非同步IO:一個完整的演練Python非同步
- Glide 4.9 原始碼分析(一) —— 一次完整載入流程IDE原始碼
- 一個完整的 Web 請求到底發生了什麼Web
- 一個簡單的完整人臉識別系統
- vue的第一個commit分析VueMIT
- 一個section加密的apk的分析加密APK
- webpack實戰(一):真實專案中一個完整的webpack配置Web
- 一個完整的機器學習專案在Python中的演練(一)機器學習Python
- 分享一個完整的社群專案(Android端加後臺)Android
- [譯] 寫一個完整的 Flutter App 是什麼感覺FlutterAPP
- 完整的資料分析是怎樣的流程
- MySQL update一個詭異現象的分析--個人未分析出MySql