ncbi下載資料sra和轉換fastq流程

qq_39306047發表於2020-06-18

 

https://www.cnblogs.com/chenpeng1024/p/9166988.html

 

nohup prefetch --option-file SRR_Acc_List.txt &

$ wget -i filename.txt
此命令常用於批量下載的情形,把所有需要下載檔案的地址放到 filename.txt 中,然後 wget 就會自動為你下載所有檔案了。

$ wget -c http://example.com/really-big-file.iso
這裡所指定的 -c 選項的作用為斷點續傳。


實踐證明,wget下載sra資料是有風險的!!!中間有斷點的話會造成資料不完整,以防萬一,一定要加上自動斷點續傳引數-c!
ftp='ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR'

mkdir sra  # make a output directory
cat SRR_Acc_List.txt |  while read i
do
       SRR=$(echo ${i:0:6}) 
       wget -c -t 0 -P ./sra ${ftp}/${SRR}/${i}/*
done
引數說明:
-c 自動斷點續傳,一定要加!否則資料會有不完整的情況
-t 配合-c引數,設定為0表示連線失敗後無限次重新嘗試,直到成功為止
-P 表示把資料下載到指定資料夾下

cat SRR_Acc_List.txt |  while read i
do
     SRR=$(echo ${i:0:6}) ##輸出前6個欄位
     wget -c -t 0 -P ./sra ${ftp}/${SRR}/${i}/*
done

 

##ncbi的fastq檔案  連線沒有規律

https://storage.googleapis.com/sra-pub-src-3/SRR8445201/1449F5-1_171117_NB501735_0063_AHT3CVBGX3_ACAGTG-NoIndex_L000_R1_001.fastq.gz
https://storage.googleapis.com/sra-pub-src-3/SRR8445201/1449F5-1_171117_NB501735_0063_AHT3CVBGX3_ACAGTG-NoIndex_L000_R2_001.fastq.gz


https://storage.googleapis.com/sra-pub-src-3/SRR8445205/1545F3-2_180306_NB501735_0084_AHLJ3MBGX5_ACAGTG-NoIndex_L000_R1_001.fastq.gz
https://storage.googleapis.com/sra-pub-src-3/SRR8445205/1545F3-2_180306_NB501735_0084_AHLJ3MBGX5_ACAGTG-NoIndex_L000_R2_001.fastq.gz

https://storage.googleapis.com/sra-pub-src-3/SRR8445206/1545F3-3_180307_NB501735_0085_AHLJ3WBGX5_ACAGTG-NoIndex_L000_R1_001.fastq.gz
https://storage.googleapis.com/sra-pub-src-3/SRR8445206/1545F3-3_180307_NB501735_0085_AHLJ3WBGX5_ACAGTG-NoIndex_L000_R2_001.fastq.gz

#########################################

 


使用如下命令批量下載 (放入後臺不中斷下載:nohup cmd &):

nohup prefetch -O . $(<SRR_Acc_List.txt) &
Note:

1. aspera在下載其他資料庫(如EBI)的資料時,仍然是十分不錯的工具

2. 下載完之後,可以用如下命令批量解壓:

for f in *.sra
do
nohup fastq-dump --split-3 $f &
done
--split-3
也就是說如果SRA檔案中只有一個檔案,那麼這個引數就會被忽略。如果原檔案中有兩個檔案,那麼它就會把成對的檔案按*_1.fastq,*_2.fastq這樣分開。如果還出現了第三個檔案,就意味著這個檔案本身是未成配對的部分。可能是當初提交的時候因為事先過濾過了一下,所以有一部分資料被刪除了。
1
ls *.sra|while read id;do(fastq-dump --split-3 $id);done
我們的資料是Illumina的雙端測序,所以用fastq-dump --split-3命令來把sra格式資料轉換為fastq。https://www.cnblogs.com/freescience/archive/2017/08/08/7277620.html

檔案下載完成後放在了home目錄下的ncbi/public/sra 資料夾裡,可以看到新建了一個SRR824846.sra 檔案。在轉換檔案格式前要清楚sra檔案的資料型別,在下載時就能看到其為“paired-end”測序結果。二代測序主要有單端測序和雙端測序兩種方式,具體內容見:https://vip.biotrainee.com/d/127-paired-end-reads ,以及http://www.bio-info-trainee.com/298.html 。 
使用fastq-dump拆分PE檔案時有兩種常用的引數,--split-files 和--split-3 ,很奇怪,查到以下解釋:

–split-spot: 將雙端測序分為兩份,但是都放在同一個檔案中 
–split-files: 將雙端測序分為兩份,放在不同的檔案,但是對於一方有而一方沒有的reads直接丟棄 
–split-3 : 將雙端測序分為兩份,放在不同的檔案,但是對於一方有而一方沒有的reads會單獨放在一個資料夾裡

作者:hoptop 
連結:https://www.jianshu.com/p/a8d70b66794c

cd ~/ncbi/public/sra/   #將拆分檔案放在sra資料夾裡
fastq-dump --split-3 SRR824846   #將雙端測序檔案拆分為兩個reads

不過在上一步可以加上-gzip 命令,輸出gz的壓縮格式,好處是可以節省空間,而且比對軟體一般都支援。(參考hoptop的文章:https://www.jianshu.com/p/a8d70b66794c)

使用NCBI提供的SRA-toolkit中的工具fastq-dump直接下載SRR檔案,並轉換為FASTQ格式,--split-3參數列示如果是雙端測序就自動拆分,如果是單端不受影響。--gzip轉換fastq為壓縮檔案,節省空間。

具體步驟
【1】SRA檔案轉換成fastq檔案
-----單個檔案轉換

fastq-dump --gzip --split-3 -O outputdir -A file1.sra
-----多個檔案批量轉換

複製程式碼
# 1、編寫一個指令碼  sra_to_fq.sh
for I in `seq 56 62`
do
    fastq-dump --gzip –split-3 -O ./fastq/ -A SRR35899${I}.sra
done


# --split-3:如果是雙端測序資料,則輸出兩個檔案,如果不是則只輸出一個檔案
# --gzip:輸出格式為gzip的壓縮檔案(fastqc軟體可以直接識別gzip壓縮的檔案)
# -A:accession序列號,輸入的檔案
# -O:outdir輸出資料夾,指定輸出路徑

# 2、執行指令碼
bash sra_to_fq.sh
複製程式碼
 

【2】QC(測序質量分析):多個檔案批量進行
$ fastqc  -q  -t  4  -o  ./fastqc_result/  *.fastq.gz  &
# -t 8:呼叫8個核心
# -q :安靜執行,在執行過程中不會生成報告,只會在結束時將報告生成一個檔案
# -o ../FastQC_result.raw/ :檔案輸出位置,輸出到當前資料夾下的FastQC_result 子目錄中
# *. fq.gz:,輸入檔案:當前目錄下所有名字中有“  .fq.gz  ”的檔案
 

【3】檢視QC結果
1、單個檢視:滑鼠雙擊開啟html檔案檢視

2、批量檢視:使用 moltiqc軟體: moltiqc  *fastqc.zip

Fastqc結果報告關注重點:

  1).basic statistics

  2).per base sequence quality

  3).per base sequcence content

  4).adaptor content

  5).sequence duplication levels

主要的幾個指標是GC含量,Q20和Q30的比例以及是否存在接頭(adaptor)、index以及其他物種序列的汙染等。

 

質控軟體:

   測序資料去掉接頭:cutadapt

   刪掉測序質量差的reads:fastx_trimmer
 

相關文章