3000份水稻重測序資料全部公開
感覺最近接觸的生物資訊學知識越多,越對大資料時代的到來更有同感了。現在的研究者,其實很多都可以自己在家裡做了,大量的資料基本都是公開的, 但是一個人閉門造車成就真的有限,與他人交流的思想碰撞還是蠻重要的。
https://aws.amazon.com/cn/blogs/aws/new-aws-public-data-set-3000-rice-genome/
https://aws.amazon.com/cn/public-data-sets/3000-rice-genome/
https://wiki.dnanexus.com/Featured-Projects/3000-rice-genomes
這裡面列出了3000多份水稻全基因組測序資料,都共享在亞馬遜雲上面,是全基因組的雙端測序資料,共3,024個水稻資料,比對到了五種不同的水稻參考基因組上面,而且主要是用GATK來找差異基因的。
而且,資料收集者還給出了一個snp calling的標準流程!
其採用的找變異流程如下:
SNP Pipeline Commands
1. Index the reference genome using bwa index
/software/bwa-0.7.10/bwa index /reference/japonica/reference.fa
2. Align the paired reads to reference genome using bwa mem.
Note: Specify the number of threads or processes to use using the -t parameter. The possible number of threads depends on the machine where the command will run.
/software/bwa-0.7.10/bwa mem -M -t 8 /reference/japonica/reference.fa /reads/filename_1.fq.gz /reads/filename_2.fq.gz > /output/filename.sam
3. Sort SAM file and output as BAM file
java -Xmx8g -jar /software/picard-tools-1.119/SortSam.jar INPUT=/output/filename.sam OUTPUT=/output/filename.sorted.bam VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE
4. Fix mate information
java -Xmx8g -jar /software/picard-tools-1.119/FixMateInformation.jar INPUT=/output/filename.sorted.bam OUTPUT=/output/filename.fxmt.bam SO=coordinate VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE
5. Mark duplicate reads
java -Xmx8g -jar /software/picard-tools-1.119/MarkDuplicates.jar INPUT=/output/filename.fxmt.bam OUTPUT=/output/filename.mkdup.bam METRICS_FILE=/output/filename.metrics VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000
6. Add or replace read groups
java -Xmx8g -jar /software/picard-tools-1.119/AddOrReplaceReadGroups.jar INPUT=/output/filename.mkdup.bam OUTPUT=/output/filename.addrep.bam RGID=readname PL=Illumina SM=readname CN=BGI VALIDATION_STRINGENCY=LENIENT SO=coordinate CREATE_INDEX=TRUE
7. Create index and dictionary for reference genome
/software/samtools-1.0/samtools faidx /reference/japonica/reference.fa
java -Xmx8g -jar /software/picard-tools-1.119/CreateSequenceDictionary.jar REFERENCE=/reference/japonica/reference.fa OUTPUT=/reference/reference.dict
8. Realign Target
java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T RealignerTargetCreator -I /output/filename.addrep.bam -R /reference/japonica/reference.fa -o /output/filename.intervals -fixMisencodedQuals -nt 8
9. Indel Realigner
java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T IndelRealigner -fixMisencodedQuals -I /output/filename.addrep.bam -R /reference/japonica/reference.fa -targetIntervals /output/filename.intervals -o /output/filename.realn.bam
10. Merge individual BAM files if there are multiple read pairs per sample
/software/samtools-1.0/samtools merge /output/filename.merged.bam /output/*.realn.bam
11. Call SNPs using Unified Genotyper
java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T UnifiedGenotyper -R /reference/japonica/reference.fa -I /output/filename.merged.bam -o filename.merged.vcf -glm BOTH -mbq 20 --genotyping_mode DISCOVERY -out_mode EMIT_ALL_SITES
相關文章
- 水稻資料庫彙總資料庫
- 水稻病害影像分類資料集
- 阿里雲高效能時序資料庫 HiTSDB 啟動公測!阿里資料庫
- Orillusion 正式公測開啟,這份指南請收好!
- 開服滿配3000福利《仙境傳說RO:新啟航》今日公測!
- FastQC——測序資料質量分析AST
- 首次揭秘!這份白皮書公開了AI模型的醫院全部訓練過程……AI模型
- DB2資料庫的備份測試--開始備份DB2資料庫
- [BUG反饋]後臺備份資料庫後,只備份了結構,資料全部空的。資料庫
- KaiwuDB 時序引擎資料去重功能詳解AI
- 測試去除重複資料
- 目標檢測資料集,全部有標註
- 檔案儲存NAS備份服務開放公測
- Twitter將向科學家開放全部資料
- 資料丟失如當頭棒喝,資料備份重如山!
- 網路安全公開資料集Maple-IDS,惡意流量檢測資料集開放使用!
- 把正式庫的最新資料全部遷移到測試庫上
- 6個備份資料的去重加密工具加密
- 重複資料刪除:備份中的“消重加速器”
- DB2資料庫的備份測試--開始恢復DB2資料庫
- 時序資料庫InfluxDB之備份和恢復策略資料庫UX
- 時序資料庫 InfluxDB 之備份和恢復策略資料庫UX
- 蘋果捲開源大模型,公開程式碼、權重、資料集、訓練全過程,OpenELM亮相蘋果大模型
- 《資料分析與資料探勘》--天津大學公開課
- MongoDB資料庫順序讀效能評估測試MongoDB資料庫
- 作業系統和informix資料庫全部損壞恢復測試作業系統ORM資料庫
- ZT 3000萬資料成功遷移
- 測試公開課資料系列01--Fiddler之AutoResponse線上除錯利器除錯
- vue實現展開全部,收起全部Vue
- 時序資料庫破局開放探討資料庫
- 時序資料庫資料庫
- LibreOffice公開開發計劃的相關資料–資料資訊圖
- mysql資料庫xtrabackup壓縮備份測試MySql資料庫
- 時序資料庫分析-TimescaleDB時序資料庫介紹資料庫
- 微信公眾號開發推送事件排重事件
- 測試公開課資料系列02--Postman之chai.js斷言應用PostmanAIJS
- 友情分享:Oracle資料庫12c第二版 公開測試版Oracle資料庫
- 鐵威馬DupleBackup雙重備份,更高的資料安全保障