生信軟體 | Sratools (操作SRA檔案)

白墨石發表於2017-11-06

1. 介紹

  • Sratools是NCBI官方提供,用於操作SRA (reads and reference alignments) 資料的工具集合
  • 一般常用於下載SRA檔案,從SRA檔案中提取fastq,sam檔案,檢視SRA檔案資訊等

2. 安裝

這裡提供兩種方法,選擇一種安裝即可,強烈建議使用Conda方式安裝

2.1 Conda 安裝

conda install -y sra-tools

這裡需要安裝Conda (一款用於安裝多數生物資訊分析軟體的管理軟體,重要的是可以解決軟體的依賴問題) : Conda 安裝使用圖文詳解

2.2 傳統安裝

下載

下載地址1:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software
下載地址2:https://github.com/ncbi/sra-tools/wiki/Downloads

在Linux系統(以CentOS為例)下將上述的連結下載到本地

wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.6-1/sratoolkit.2.9.6-1-centos_linux64.tar.gz

解壓

gunzip -c sratoolkit.2.9.6-1-centos_linux64.tar.gz | tar xf -

設定環境變數

所有的可執行檔案均在sratoolkit.2.9.6-1-centos_linux64/bin目錄下

環境變數新增的詳細方法:Linux 新增環境變數的五種方法

  • 開啟環境變數設定檔案
sudo vim /etc/environment
  • 新增軟體 bin 目錄的路徑,並用 : 隔開

  • 執行source命令,使配置立即生效

sudo source /etc/enviroment

3. 使用

官方文件:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

3.1 下載SRA

https://github.com/ncbi/sra-tools/wiki/HowTo:-Access-SRA-Data

下載單個檔案

prefetch SRR390728

下載多個檔案

prefetch cart_0.krt

3.2 抽取fastq檔案

fastq-dump --split-3 SRR893046 -O fastq

**注意:**NCBI其實已經更新了一個多執行緒抽取工具fasterq-dump,可以在sratools的bin目錄裡找到,但是文件沒有寫,沒有特殊需求的話,可以考慮直接用新工具替代。

這個fasterq-dumpfastq-dump相比,就像動車碾壓綠皮火車,用法如下:

fasterq-dump --split-3 SRR893046 -O fastq

詳情檢視:https://www.jianshu.com/p/5c97a34cc1ad

相關文章