ncbi下載資料sra和轉換fastq流程
https://www.cnblogs.com/chenpeng1024/p/9166988.html
nohup prefetch --option-file SRR_Acc_List.txt &
$ wget -i filename.txt
此命令常用於批量下載的情形,把所有需要下載檔案的地址放到 filename.txt 中,然後 wget 就會自動為你下載所有檔案了。
$ wget -c http://example.com/really-big-file.iso
這裡所指定的 -c 選項的作用為斷點續傳。
實踐證明,wget下載sra資料是有風險的!!!中間有斷點的話會造成資料不完整,以防萬一,一定要加上自動斷點續傳引數-c!
ftp='ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR'
mkdir sra # make a output directory
cat SRR_Acc_List.txt | while read i
do
SRR=$(echo ${i:0:6})
wget -c -t 0 -P ./sra ${ftp}/${SRR}/${i}/*
done
引數說明:
-c 自動斷點續傳,一定要加!否則資料會有不完整的情況
-t 配合-c引數,設定為0表示連線失敗後無限次重新嘗試,直到成功為止
-P 表示把資料下載到指定資料夾下
cat SRR_Acc_List.txt | while read i
do
SRR=$(echo ${i:0:6}) ##輸出前6個欄位
wget -c -t 0 -P ./sra ${ftp}/${SRR}/${i}/*
done
##ncbi的fastq檔案 連線沒有規律
https://storage.googleapis.com/sra-pub-src-3/SRR8445201/1449F5-1_171117_NB501735_0063_AHT3CVBGX3_ACAGTG-NoIndex_L000_R1_001.fastq.gz
https://storage.googleapis.com/sra-pub-src-3/SRR8445201/1449F5-1_171117_NB501735_0063_AHT3CVBGX3_ACAGTG-NoIndex_L000_R2_001.fastq.gz
https://storage.googleapis.com/sra-pub-src-3/SRR8445205/1545F3-2_180306_NB501735_0084_AHLJ3MBGX5_ACAGTG-NoIndex_L000_R1_001.fastq.gz
https://storage.googleapis.com/sra-pub-src-3/SRR8445205/1545F3-2_180306_NB501735_0084_AHLJ3MBGX5_ACAGTG-NoIndex_L000_R2_001.fastq.gz
https://storage.googleapis.com/sra-pub-src-3/SRR8445206/1545F3-3_180307_NB501735_0085_AHLJ3WBGX5_ACAGTG-NoIndex_L000_R1_001.fastq.gz
https://storage.googleapis.com/sra-pub-src-3/SRR8445206/1545F3-3_180307_NB501735_0085_AHLJ3WBGX5_ACAGTG-NoIndex_L000_R2_001.fastq.gz
#########################################
使用如下命令批量下載 (放入後臺不中斷下載:nohup cmd &):
nohup prefetch -O . $(<SRR_Acc_List.txt) &
Note:
1. aspera在下載其他資料庫(如EBI)的資料時,仍然是十分不錯的工具
2. 下載完之後,可以用如下命令批量解壓:
for f in *.sra
do
nohup fastq-dump --split-3 $f &
done
--split-3
也就是說如果SRA檔案中只有一個檔案,那麼這個引數就會被忽略。如果原檔案中有兩個檔案,那麼它就會把成對的檔案按*_1.fastq,*_2.fastq這樣分開。如果還出現了第三個檔案,就意味著這個檔案本身是未成配對的部分。可能是當初提交的時候因為事先過濾過了一下,所以有一部分資料被刪除了。
1
ls *.sra|while read id;do(fastq-dump --split-3 $id);done
我們的資料是Illumina的雙端測序,所以用fastq-dump --split-3命令來把sra格式資料轉換為fastq。https://www.cnblogs.com/freescience/archive/2017/08/08/7277620.html
檔案下載完成後放在了home目錄下的ncbi/public/sra 資料夾裡,可以看到新建了一個SRR824846.sra 檔案。在轉換檔案格式前要清楚sra檔案的資料型別,在下載時就能看到其為“paired-end”測序結果。二代測序主要有單端測序和雙端測序兩種方式,具體內容見:https://vip.biotrainee.com/d/127-paired-end-reads ,以及http://www.bio-info-trainee.com/298.html 。
使用fastq-dump拆分PE檔案時有兩種常用的引數,--split-files 和--split-3 ,很奇怪,查到以下解釋:
–split-spot: 將雙端測序分為兩份,但是都放在同一個檔案中
–split-files: 將雙端測序分為兩份,放在不同的檔案,但是對於一方有而一方沒有的reads直接丟棄
–split-3 : 將雙端測序分為兩份,放在不同的檔案,但是對於一方有而一方沒有的reads會單獨放在一個資料夾裡
作者:hoptop
連結:https://www.jianshu.com/p/a8d70b66794c
cd ~/ncbi/public/sra/ #將拆分檔案放在sra資料夾裡
fastq-dump --split-3 SRR824846 #將雙端測序檔案拆分為兩個reads
不過在上一步可以加上-gzip 命令,輸出gz的壓縮格式,好處是可以節省空間,而且比對軟體一般都支援。(參考hoptop的文章:https://www.jianshu.com/p/a8d70b66794c)
使用NCBI提供的SRA-toolkit中的工具fastq-dump直接下載SRR檔案,並轉換為FASTQ格式,--split-3參數列示如果是雙端測序就自動拆分,如果是單端不受影響。--gzip轉換fastq為壓縮檔案,節省空間。
具體步驟
【1】SRA檔案轉換成fastq檔案
-----單個檔案轉換
fastq-dump --gzip --split-3 -O outputdir -A file1.sra
-----多個檔案批量轉換
複製程式碼
# 1、編寫一個指令碼 sra_to_fq.sh
for I in `seq 56 62`
do
fastq-dump --gzip –split-3 -O ./fastq/ -A SRR35899${I}.sra
done
# --split-3:如果是雙端測序資料,則輸出兩個檔案,如果不是則只輸出一個檔案
# --gzip:輸出格式為gzip的壓縮檔案(fastqc軟體可以直接識別gzip壓縮的檔案)
# -A:accession序列號,輸入的檔案
# -O:outdir輸出資料夾,指定輸出路徑
# 2、執行指令碼
bash sra_to_fq.sh
複製程式碼
【2】QC(測序質量分析):多個檔案批量進行
$ fastqc -q -t 4 -o ./fastqc_result/ *.fastq.gz &
# -t 8:呼叫8個核心
# -q :安靜執行,在執行過程中不會生成報告,只會在結束時將報告生成一個檔案
# -o ../FastQC_result.raw/ :檔案輸出位置,輸出到當前資料夾下的FastQC_result 子目錄中
# *. fq.gz:,輸入檔案:當前目錄下所有名字中有“ .fq.gz ”的檔案
【3】檢視QC結果
1、單個檢視:滑鼠雙擊開啟html檔案檢視
2、批量檢視:使用 moltiqc軟體: moltiqc *fastqc.zip
Fastqc結果報告關注重點:
1).basic statistics
2).per base sequence quality
3).per base sequcence content
4).adaptor content
5).sequence duplication levels
主要的幾個指標是GC含量,Q20和Q30的比例以及是否存在接頭(adaptor)、index以及其他物種序列的汙染等。
質控軟體:
測序資料去掉接頭:cutadapt
刪掉測序質量差的reads:fastx_trimmer
相關文章
- sra 資料轉成 fastq並改名AST
- sra轉fastq格式AST
- 本地blast的使用及SRA轉fastq,解決sra轉換成fastq後bwa無法識別的問題AST
- Linux下把sra檔案轉成fastq檔案LinuxAST
- 老曹的作業本之sra轉fastqAST
- GEO資料庫下載 SRA資料庫
- 如何將高通量測序原始資料上傳到NCBI的SRA(The Sequence Read Archive)資料庫?Hive資料庫
- 菜鳥自學之——SRA Toolkit 的下載和使用
- Glide4.8原始碼拆解(三)Registry和資料轉換流程IDE原始碼
- sra檔案下載及解析的問題
- scala和java資料型別轉換Java資料型別
- 使用MapStruct和Lombok轉換資料物件StructLombok物件
- Java資料型別的顯式轉換和隱式轉換Java資料型別
- 生物資訊大資料&資料庫(NCBI、EBI、UCSC、TCGA)大資料資料庫
- python--進位制轉換和資料交換Python
- 視訊下載和轉換工具:Xilisoft YouTube Video Converter macIDEMac
- Allavsoft Video Downloader Converter for Mac(視訊下載和格式轉換)IDEMac
- Spotify音樂下載轉換工具
- hrsc2016資料集xml格式轉換為yolo格式,附下載連結XMLYOLO
- 資料庫轉換工具,不同資料庫之前任意轉換資料庫
- Swift下Data處理全流程:從網路下載,數模轉換,本地快取到頁面使用Swift快取
- Python JSON 使用指南:解析和轉換資料PythonJSON
- SeaTunnel用於海量資料的同步和轉換
- String和基本資料型別的相互轉換資料型別
- Stimulsoft Reports如何建立新的資料轉換、編輯資料轉換
- ABBYY FineReader PDF 15 for Mac 全新安裝下載,PDF轉換和OCRMac
- C++資料結構和pb資料結構的轉換C++資料結構
- Cocos Creator 資源載入流程剖析【六】——場景切換流程
- Hive資料格式轉換Hive
- 資料型別轉換資料型別
- 資料類新轉換
- 資料集轉換JSONJSON
- 下載和安裝MySQL資料庫MySql資料庫
- Python基礎之集合和資料型別轉換Python資料型別
- 將json資料轉換為Python字典將json資料轉換為Python字典JSONPython
- 什麼是資料轉換?
- JavaScript 資料型別轉換JavaScript資料型別
- javascript資料型別轉換JavaScript資料型別