3000份水稻重測序資料全部公開

weixin_34321977發表於2018-07-01

原文網址 : https://blog.csdn.net/weixin_34321977/article/details/87422144

感覺最近接觸的生物資訊學知識越多，越對大資料時代的到來更有同感了。現在的研究者，其實很多都可以自己在家裡做了，大量的資料基本都是公開的，但是一個人閉門造車成就真的有限，與他人交流的思想碰撞還是蠻重要的。

https://aws.amazon.com/cn/blogs/aws/new-aws-public-data-set-3000-rice-genome/
https://aws.amazon.com/cn/public-data-sets/3000-rice-genome/
https://wiki.dnanexus.com/Featured-Projects/3000-rice-genomes
這裡面列出了3000多份水稻全基因組測序資料，都共享在亞馬遜雲上面，是全基因組的雙端測序資料，共3,024個水稻資料，比對到了五種不同的水稻參考基因組上面，而且主要是用GATK來找差異基因的。
而且，資料收集者還給出了一個snp calling的標準流程！

其採用的找變異流程如下：

SNP Pipeline Commands

1. Index the reference genome using bwa index

   /software/bwa-0.7.10/bwa index /reference/japonica/reference.fa

2. Align the paired reads to reference genome using bwa mem. 
   Note: Specify the number of threads or processes to use using the -t parameter. The possible number of threads depends on the machine where the command will run.

   /software/bwa-0.7.10/bwa mem -M -t 8 /reference/japonica/reference.fa /reads/filename_1.fq.gz /reads/filename_2.fq.gz > /output/filename.sam

3. Sort SAM file and output as BAM file

   java -Xmx8g -jar /software/picard-tools-1.119/SortSam.jar INPUT=/output/filename.sam OUTPUT=/output/filename.sorted.bam VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE

4. Fix mate information

   java -Xmx8g -jar /software/picard-tools-1.119/FixMateInformation.jar INPUT=/output/filename.sorted.bam OUTPUT=/output/filename.fxmt.bam SO=coordinate VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE

5. Mark duplicate reads

   java -Xmx8g -jar /software/picard-tools-1.119/MarkDuplicates.jar INPUT=/output/filename.fxmt.bam OUTPUT=/output/filename.mkdup.bam METRICS_FILE=/output/filename.metrics VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000

6. Add or replace read groups

   java -Xmx8g -jar /software/picard-tools-1.119/AddOrReplaceReadGroups.jar INPUT=/output/filename.mkdup.bam OUTPUT=/output/filename.addrep.bam RGID=readname PL=Illumina SM=readname CN=BGI VALIDATION_STRINGENCY=LENIENT SO=coordinate CREATE_INDEX=TRUE

7. Create index and dictionary for reference genome

   /software/samtools-1.0/samtools faidx /reference/japonica/reference.fa
   
   java -Xmx8g -jar /software/picard-tools-1.119/CreateSequenceDictionary.jar REFERENCE=/reference/japonica/reference.fa OUTPUT=/reference/reference.dict

8. Realign Target 

   java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T RealignerTargetCreator -I /output/filename.addrep.bam -R /reference/japonica/reference.fa -o /output/filename.intervals -fixMisencodedQuals -nt 8

9. Indel Realigner

   java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T IndelRealigner -fixMisencodedQuals -I /output/filename.addrep.bam -R /reference/japonica/reference.fa -targetIntervals /output/filename.intervals -o /output/filename.realn.bam 

10. Merge individual BAM files if there are multiple read pairs per sample

   /software/samtools-1.0/samtools merge /output/filename.merged.bam /output/*.realn.bam

11. Call SNPs using Unified Genotyper

   java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T UnifiedGenotyper -R /reference/japonica/reference.fa -I /output/filename.merged.bam -o filename.merged.vcf -glm BOTH -mbq 20 --genotyping_mode DISCOVERY -out_mode EMIT_ALL_SITES

水稻資料庫彙總
2018-03-27
資料庫
水稻病害影像分類資料集
2024-05-22
FastQC——測序資料質量分析
2018-11-23
AST
KaiwuDB 時序引擎資料去重功能詳解
2023-12-25
AI
目標檢測資料集，全部有標註
2024-04-07
網路安全公開資料集Maple-IDS，惡意流量檢測資料集開放使用！
2024-08-31
時序資料庫
2024-08-17
資料庫
《資料分析與資料探勘》--天津大學公開課
2020-10-09
時序資料庫破局開放探討
2022-05-06
資料庫
蘋果捲開源大模型，公開程式碼、權重、資料集、訓練全過程，OpenELM亮相
2024-04-25
蘋果大模型
vue實現展開全部，收起全部
2018-05-28
Vue
測試公開課資料系列01--Fiddler之AutoResponse線上除錯利器
2023-02-21
除錯
時序資料庫influxdb
2021-09-09
資料庫UX
測試公開課資料系列02--Postman之chai.js斷言應用
2023-02-16
PostmanAIJS
重磅！阿里雲時空資料庫正式免費公測
2019-05-08
阿里資料庫
Python語言的全部資料型別分享！
2021-06-16
Python資料型別
php與資料庫連線如何實現資料的順序和倒序
2020-11-05
PHP資料庫
如何將高通量測序原始資料上傳到NCBI的SRA（The Sequence Read Archive）資料庫？
2020-12-17
Hive資料庫
Prometheus時序資料庫-資料的查詢
2021-03-15
Prometheus資料庫
實時資料庫與時序資料庫
2020-11-28
資料庫
el-tree全部展開全部摺疊方法
2024-07-19
初識時序資料庫
2019-11-25
資料庫
順序表有序插入資料
2020-06-21
時序資料庫-01-時序資料庫有哪些？為什麼要使用
2024-07-19
資料庫
可觀測｜時序資料降取樣在Prometheus實踐覆盤
2022-07-04
Prometheus
多角度分析，通訊時序資料的預測與異常檢測挑戰
2020-08-10
開源大資料排程系統 Taier 技術公開課 ——Taier 資料開發介紹
2022-07-11
大資料AI
從零開始學習時空資料視覺化（序）
2019-02-25
視覺化
給前端返回資料全部轉字串合適嗎？
2022-11-25
前端字串
微信公眾號開發推送事件排重
2019-02-16
事件
《航海王啟航》2.0公測火熱開啟巔峰海戰，熱血重現！
2019-08-09
GISAID平臺全球新冠基因組測序資料已破百萬大關
2021-04-26
AI
QuestDB時序資料庫介紹
2023-04-17
資料庫
MySQL去重資料
2020-05-31
MySql
excel慮重資料
2020-10-30
Excel
開源公開課丨 ChunJun 資料傳輸模組介紹
2022-08-15
後序+中序（前序+中序）重構樹，嚴格O(N)演算法
2021-01-03
演算法
時序資料庫連載系列：當SQL遇到時序TimescaleDB
2019-02-19
資料庫SQL

3000份水稻重測序資料全部公開

相關文章