3000份水稻重測序資料全部公開
感覺最近接觸的生物資訊學知識越多,越對大資料時代的到來更有同感了。現在的研究者,其實很多都可以自己在家裡做了,大量的資料基本都是公開的, 但是一個人閉門造車成就真的有限,與他人交流的思想碰撞還是蠻重要的。
https://aws.amazon.com/cn/blogs/aws/new-aws-public-data-set-3000-rice-genome/
https://aws.amazon.com/cn/public-data-sets/3000-rice-genome/
https://wiki.dnanexus.com/Featured-Projects/3000-rice-genomes
這裡面列出了3000多份水稻全基因組測序資料,都共享在亞馬遜雲上面,是全基因組的雙端測序資料,共3,024個水稻資料,比對到了五種不同的水稻參考基因組上面,而且主要是用GATK來找差異基因的。
而且,資料收集者還給出了一個snp calling的標準流程!
其採用的找變異流程如下:
SNP Pipeline Commands
1. Index the reference genome using bwa index
/software/bwa-0.7.10/bwa index /reference/japonica/reference.fa
2. Align the paired reads to reference genome using bwa mem.
Note: Specify the number of threads or processes to use using the -t parameter. The possible number of threads depends on the machine where the command will run.
/software/bwa-0.7.10/bwa mem -M -t 8 /reference/japonica/reference.fa /reads/filename_1.fq.gz /reads/filename_2.fq.gz > /output/filename.sam
3. Sort SAM file and output as BAM file
java -Xmx8g -jar /software/picard-tools-1.119/SortSam.jar INPUT=/output/filename.sam OUTPUT=/output/filename.sorted.bam VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE
4. Fix mate information
java -Xmx8g -jar /software/picard-tools-1.119/FixMateInformation.jar INPUT=/output/filename.sorted.bam OUTPUT=/output/filename.fxmt.bam SO=coordinate VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE
5. Mark duplicate reads
java -Xmx8g -jar /software/picard-tools-1.119/MarkDuplicates.jar INPUT=/output/filename.fxmt.bam OUTPUT=/output/filename.mkdup.bam METRICS_FILE=/output/filename.metrics VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000
6. Add or replace read groups
java -Xmx8g -jar /software/picard-tools-1.119/AddOrReplaceReadGroups.jar INPUT=/output/filename.mkdup.bam OUTPUT=/output/filename.addrep.bam RGID=readname PL=Illumina SM=readname CN=BGI VALIDATION_STRINGENCY=LENIENT SO=coordinate CREATE_INDEX=TRUE
7. Create index and dictionary for reference genome
/software/samtools-1.0/samtools faidx /reference/japonica/reference.fa
java -Xmx8g -jar /software/picard-tools-1.119/CreateSequenceDictionary.jar REFERENCE=/reference/japonica/reference.fa OUTPUT=/reference/reference.dict
8. Realign Target
java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T RealignerTargetCreator -I /output/filename.addrep.bam -R /reference/japonica/reference.fa -o /output/filename.intervals -fixMisencodedQuals -nt 8
9. Indel Realigner
java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T IndelRealigner -fixMisencodedQuals -I /output/filename.addrep.bam -R /reference/japonica/reference.fa -targetIntervals /output/filename.intervals -o /output/filename.realn.bam
10. Merge individual BAM files if there are multiple read pairs per sample
/software/samtools-1.0/samtools merge /output/filename.merged.bam /output/*.realn.bam
11. Call SNPs using Unified Genotyper
java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T UnifiedGenotyper -R /reference/japonica/reference.fa -I /output/filename.merged.bam -o filename.merged.vcf -glm BOTH -mbq 20 --genotyping_mode DISCOVERY -out_mode EMIT_ALL_SITES
相關文章
- 水稻資料庫彙總資料庫
- 水稻病害影像分類資料集
- FastQC——測序資料質量分析AST
- KaiwuDB 時序引擎資料去重功能詳解AI
- 目標檢測資料集,全部有標註
- 網路安全公開資料集Maple-IDS,惡意流量檢測資料集開放使用!
- 時序資料庫資料庫
- 《資料分析與資料探勘》--天津大學公開課
- 時序資料庫破局開放探討資料庫
- 蘋果捲開源大模型,公開程式碼、權重、資料集、訓練全過程,OpenELM亮相蘋果大模型
- vue實現展開全部,收起全部Vue
- 測試公開課資料系列01--Fiddler之AutoResponse線上除錯利器除錯
- 時序資料庫influxdb資料庫UX
- 測試公開課資料系列02--Postman之chai.js斷言應用PostmanAIJS
- 重磅!阿里雲時空資料庫正式免費公測阿里資料庫
- Python語言的全部資料型別分享!Python資料型別
- php與資料庫連線如何實現資料的順序和倒序PHP資料庫
- 如何將高通量測序原始資料上傳到NCBI的SRA(The Sequence Read Archive)資料庫?Hive資料庫
- Prometheus時序資料庫-資料的查詢Prometheus資料庫
- 實時資料庫與時序資料庫資料庫
- el-tree全部展開全部摺疊方法
- 初識時序資料庫資料庫
- 順序表有序插入資料
- 時序資料庫-01-時序資料庫有哪些?為什麼要使用資料庫
- 可觀測|時序資料降取樣在Prometheus實踐覆盤Prometheus
- 多角度分析,通訊時序資料的預測與異常檢測挑戰
- 開源大資料排程系統 Taier 技術公開課 ——Taier 資料開發介紹大資料AI
- 從零開始學習時空資料視覺化(序)視覺化
- 給前端返回資料全部轉字串合適嗎?前端字串
- 微信公眾號開發推送事件排重事件
- 《航海王 啟航》2.0公測火熱開啟 巔峰海戰,熱血重現!
- GISAID平臺全球新冠基因組測序資料已破百萬大關AI
- QuestDB時序資料庫介紹資料庫
- MySQL去重資料MySql
- excel慮重資料Excel
- 開源公開課丨 ChunJun 資料傳輸模組介紹
- 後序+中序(前序+中序)重構樹,嚴格O(N)演算法演算法
- 時序資料庫連載系列:當SQL遇到時序TimescaleDB資料庫SQL