ncbi下載資料sra和轉換fastq流程

qq_39306047發表於2020-06-18

原文網址 : https://blog.csdn.net/qq_39306047/article/details/106825020

https://www.cnblogs.com/chenpeng1024/p/9166988.html

nohup prefetch --option-file SRR_Acc_List.txt &

$ wget -i filename.txt
此命令常用於批量下載的情形，把所有需要下載檔案的地址放到 filename.txt 中，然後 wget 就會自動為你下載所有檔案了。

$ wget -c http://example.com/really-big-file.iso
這裡所指定的 -c 選項的作用為斷點續傳。

實踐證明，wget下載sra資料是有風險的！！！中間有斷點的話會造成資料不完整，以防萬一，一定要加上自動斷點續傳引數-c！
ftp='ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR'

mkdir sra  # make a output directory
cat SRR_Acc_List.txt |  while read i
do
       SRR=$(echo ${i:0:6})
       wget -c -t 0 -P ./sra ${ftp}/${SRR}/${i}/*
done
引數說明：
-c 自動斷點續傳，一定要加！否則資料會有不完整的情況
-t 配合-c引數，設定為0表示連線失敗後無限次重新嘗試，直到成功為止
-P 表示把資料下載到指定資料夾下

cat SRR_Acc_List.txt | while read i
do
SRR=$(echo ${i:0:6}) ##輸出前6個欄位
wget -c -t 0 -P ./sra ${ftp}/${SRR}/${i}/*
done

##ncbi的fastq檔案連線沒有規律

https://storage.googleapis.com/sra-pub-src-3/SRR8445201/1449F5-1_171117_NB501735_0063_AHT3CVBGX3_ACAGTG-NoIndex_L000_R1_001.fastq.gz
https://storage.googleapis.com/sra-pub-src-3/SRR8445201/1449F5-1_171117_NB501735_0063_AHT3CVBGX3_ACAGTG-NoIndex_L000_R2_001.fastq.gz

https://storage.googleapis.com/sra-pub-src-3/SRR8445205/1545F3-2_180306_NB501735_0084_AHLJ3MBGX5_ACAGTG-NoIndex_L000_R1_001.fastq.gz
https://storage.googleapis.com/sra-pub-src-3/SRR8445205/1545F3-2_180306_NB501735_0084_AHLJ3MBGX5_ACAGTG-NoIndex_L000_R2_001.fastq.gz

https://storage.googleapis.com/sra-pub-src-3/SRR8445206/1545F3-3_180307_NB501735_0085_AHLJ3WBGX5_ACAGTG-NoIndex_L000_R1_001.fastq.gz
https://storage.googleapis.com/sra-pub-src-3/SRR8445206/1545F3-3_180307_NB501735_0085_AHLJ3WBGX5_ACAGTG-NoIndex_L000_R2_001.fastq.gz

#########################################

使用如下命令批量下載 (放入後臺不中斷下載：nohup cmd &)：

nohup prefetch -O . $(<SRR_Acc_List.txt) &
Note:

1. aspera在下載其他資料庫（如EBI）的資料時，仍然是十分不錯的工具

2. 下載完之後，可以用如下命令批量解壓：

for f in *.sra
do
nohup fastq-dump --split-3 $f &
done
--split-3
也就是說如果SRA檔案中只有一個檔案，那麼這個引數就會被忽略。如果原檔案中有兩個檔案，那麼它就會把成對的檔案按*_1.fastq，*_2.fastq這樣分開。如果還出現了第三個檔案，就意味著這個檔案本身是未成配對的部分。可能是當初提交的時候因為事先過濾過了一下，所以有一部分資料被刪除了。
1
ls *.sra|while read id;do(fastq-dump --split-3 $id);done
我們的資料是Illumina的雙端測序，所以用fastq-dump --split-3命令來把sra格式資料轉換為fastq。https://www.cnblogs.com/freescience/archive/2017/08/08/7277620.html

檔案下載完成後放在了home目錄下的ncbi/public/sra 資料夾裡，可以看到新建了一個SRR824846.sra 檔案。在轉換檔案格式前要清楚sra檔案的資料型別，在下載時就能看到其為“paired-end”測序結果。二代測序主要有單端測序和雙端測序兩種方式，具體內容見：https://vip.biotrainee.com/d/127-paired-end-reads ，以及http://www.bio-info-trainee.com/298.html 。
使用fastq-dump拆分PE檔案時有兩種常用的引數，--split-files 和--split-3 ，很奇怪，查到以下解釋：

–split-spot: 將雙端測序分為兩份,但是都放在同一個檔案中
–split-files: 將雙端測序分為兩份,放在不同的檔案,但是對於一方有而一方沒有的reads直接丟棄
–split-3 : 將雙端測序分為兩份,放在不同的檔案,但是對於一方有而一方沒有的reads會單獨放在一個資料夾裡

作者：hoptop
連結：https://www.jianshu.com/p/a8d70b66794c

cd ~/ncbi/public/sra/ #將拆分檔案放在sra資料夾裡
fastq-dump --split-3 SRR824846 #將雙端測序檔案拆分為兩個reads

不過在上一步可以加上-gzip 命令，輸出gz的壓縮格式，好處是可以節省空間，而且比對軟體一般都支援。（參考hoptop的文章：https://www.jianshu.com/p/a8d70b66794c）

使用NCBI提供的SRA-toolkit中的工具fastq-dump直接下載SRR檔案，並轉換為FASTQ格式，--split-3參數列示如果是雙端測序就自動拆分，如果是單端不受影響。--gzip轉換fastq為壓縮檔案，節省空間。

具體步驟
【1】SRA檔案轉換成fastq檔案
-----單個檔案轉換

fastq-dump --gzip --split-3 -O outputdir -A file1.sra
-----多個檔案批量轉換

複製程式碼
# 1、編寫一個指令碼 sra_to_fq.sh
for I in `seq 56 62`
do
fastq-dump --gzip –split-3 -O ./fastq/ -A SRR35899${I}.sra
done

# --split-3：如果是雙端測序資料，則輸出兩個檔案，如果不是則只輸出一個檔案
# --gzip：輸出格式為gzip的壓縮檔案（fastqc軟體可以直接識別gzip壓縮的檔案）
# -A：accession序列號，輸入的檔案
# -O：outdir輸出資料夾，指定輸出路徑

# 2、執行指令碼
bash sra_to_fq.sh
複製程式碼

【2】QC（測序質量分析）：多個檔案批量進行
$ fastqc -q -t 4 -o ./fastqc_result/ *.fastq.gz &
# -t 8：呼叫8個核心
# -q ：安靜執行，在執行過程中不會生成報告，只會在結束時將報告生成一個檔案
# -o ../FastQC_result.raw/ ：檔案輸出位置，輸出到當前資料夾下的FastQC_result 子目錄中
# *. fq.gz：，輸入檔案：當前目錄下所有名字中有“ .fq.gz ”的檔案

【3】檢視QC結果
1、單個檢視：滑鼠雙擊開啟html檔案檢視

2、批量檢視：使用 moltiqc軟體: moltiqc *fastqc.zip

Fastqc結果報告關注重點：

1）.basic statistics

2）.per base sequence quality

3）.per base sequcence content

4）.adaptor content

5）.sequence duplication levels

主要的幾個指標是GC含量，Q20和Q30的比例以及是否存在接頭（adaptor）、index以及其他物種序列的汙染等。

質控軟體：

測序資料去掉接頭：cutadapt

刪掉測序質量差的reads：fastx_trimmer

sra 資料轉成 fastq並改名
2020-03-07
AST
sra轉fastq格式
2018-09-04
AST
本地blast的使用及SRA轉fastq，解決sra轉換成fastq後bwa無法識別的問題
2019-11-04
AST
Linux下把sra檔案轉成fastq檔案
2019-10-25
LinuxAST
老曹的作業本之sra轉fastq
2019-03-07
AST
GEO資料庫下載 SRA
2024-10-04
資料庫
如何將高通量測序原始資料上傳到NCBI的SRA（The Sequence Read Archive）資料庫？
2020-12-17
Hive資料庫
菜鳥自學之——SRA Toolkit 的下載和使用
2018-07-27
Glide4.8原始碼拆解（三）Registry和資料轉換流程
2019-01-09
IDE原始碼
sra檔案下載及解析的問題
2019-12-24
scala和java資料型別轉換
2018-10-26
Java資料型別
使用MapStruct和Lombok轉換資料物件
2024-06-16
StructLombok物件
Java資料型別的顯式轉換和隱式轉換
2020-09-23
Java資料型別
生物資訊大資料&資料庫（NCBI、EBI、UCSC、TCGA）
2019-03-27
大資料資料庫
python--進位制轉換和資料交換
2020-12-07
Python
視訊下載和轉換工具:Xilisoft YouTube Video Converter mac
2022-03-21
IDEMac
Allavsoft Video Downloader Converter for Mac(視訊下載和格式轉換)
2021-11-18
IDEMac
Spotify音樂下載轉換工具
2021-11-26
hrsc2016資料集xml格式轉換為yolo格式，附下載連結
2022-04-30
XMLYOLO
資料庫轉換工具，不同資料庫之前任意轉換
2020-08-07
資料庫
Swift下Data處理全流程：從網路下載，數模轉換，本地快取到頁面使用
2023-05-04
Swift快取
Python JSON 使用指南：解析和轉換資料
2023-11-01
PythonJSON
SeaTunnel用於海量資料的同步和轉換
2022-01-13
String和基本資料型別的相互轉換
2021-01-04
資料型別
ABBYY FineReader PDF 15 for Mac 全新安裝下載，PDF轉換和OCR
2024-01-06
Mac
Stimulsoft Reports如何建立新的資料轉換、編輯資料轉換
2021-04-25
C++資料結構和pb資料結構的轉換
2024-04-14
C++資料結構
Cocos Creator 資源載入流程剖析【六】——場景切換流程
2019-05-10
Hive資料格式轉換
2019-01-08
Hive
資料型別轉換
2018-12-29
資料型別
資料類新轉換
2024-07-14
資料集轉換JSON
2024-07-04
JSON
下載和安裝MySQL資料庫
2021-02-08
MySql資料庫
Python基礎之集合和資料型別轉換
2020-10-02
Python資料型別
將json資料轉換為Python字典將json資料轉換為Python字典
2023-11-07
JSONPython
什麼是資料轉換？
2018-12-03
JavaScript 資料型別轉換
2018-12-19
JavaScript資料型別
javascript資料型別轉換
2018-06-12
JavaScript資料型別

ncbi下載資料sra和轉換fastq流程

相關文章