Linux下把sra檔案轉成fastq檔案

銘&嬋旭發表於2019-10-25

記錄下自己在安裝sratoolkit和轉換檔案的摸索步驟

轉換檔案需要使用sratoolkit軟體,所以首先要下載,先說下下載、解壓、安裝這個軟體。我事先在我的Linux目錄下新建一個資料夾software用來存放下載的軟體,新建資料夾命令:mkdir software,然後就在這個資料夾下載軟體了。

1. 在Linux下直接用wget來下載,輸入如下命令:

wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz

2. 在當前目錄解壓下載的壓縮包,輸入如下命令: 

tar -xzf sratoolkit.current-centos_linux64.tar.gz

3. 為了避免因升級而需要修改配置檔案,把軟體的版本號去了,該名字為sratoolkit

mv sratoolkit.2.9.6-1-centos_linux64 sratoolkit

4. 在sratoolkit資料夾下檢視絕對路徑

[wuchan@login sratoolkit]$ pwd
/share/home/wuchan/software/sratoolkit
[wuchan@login sratoolkit]$ ls
bin  CHANGES  example  README-blastn  README.md  README-vdb-config  schema

5. 配置環境變數,用的是vi編輯文字命令

vi ~/.bashrc #用vi編輯修改.bashrc檔案
i  #切換成插入
export PATH=/share/home/wuchan/software/sratoolkit/bin:$PATH  #這裡的絕對路徑是通過在存放sratoolkit資料夾下輸入pwd檢視得到的
Esc  #回到命令
:wq  #儲存退出.bashrc檔案
source ~/.bashrc  #讓配置生效

接下來是第二部分,使用sratoolkit把sra檔案轉為fastq檔案,為什麼要轉?

因為sra是二進位制檔案,在Linux下如果用less去檢視,它會顯示這是個二進位制檔案,你是否確定開啟它。一般我們分析測序資料,是用fastq檔案開啟分析,所以就需要轉格式。

1. 我的下載下來的sra檔案儲存在SRAdata資料夾下,所以進入SRAdata資料夾去轉換

cd SRAdata

2. 用絕對路徑去轉換,輸入如下:

/share/home/wuchan/software/sratoolkit/bin/fastq-dump --split-3 /share/home/wuchan/SRAdata/SRR5831963.sra  

前面的語句是呼叫sratoolkit/bin/目錄下的fastq-dump,然後--split-3表示雙端測序拆分成兩個reads,後面的SRR5831963.sra就是我下載的sra資料。這個拆分後的是存放在SRAdata資料夾下的。這裡補充一點,當時我直接在sratoolkit資料夾下面輸入如下命令:fastq-dump --split-3 /share/home/wuchan/SRAdata/SRR5831962.sra 得到的fastq檔案是存在sratoolkit資料夾下。說明在當前資料夾下面呼叫轉換命令,生成的檔案也就是在當前目錄下。補:這裡還出現了一個錯誤,我直接在SRAdata下輸入這個命令會報錯。目前還不知道原因,猜測應該是不能直接呼叫fastq-dump

[wuchan@login SRAdata]$ fastq-dump --split-3 /share/home/wuchan/SRAdata/SRR5831963.sra
bash: fastq-dump: command not found...

一些錯誤與嘗試記錄

1. 發現使用自己安裝的sratoolkit,可以直接這樣使用也能拆分

/share/home/wuchan/software/sratoolkit/bin/fastq-dump --split-3 SRR5831962.sra

也就是不需要加sra資料的絕對路徑,但前提是在儲存sra資料的資料夾下。

2. 不能直接按照下面輸入會報錯的。

[wuchan@login SRAdata]$ /sratoolkit/bin/fastq-dump --split-3 SRR5831965.sra
-bash: /sratoolkit/bin/fastq-dump: No such file or directory
[wuchan@login SRAdata]$ ~/sratoolkit/bin/fastq-dump --split-3 SRR5831965.sra
-bash: /share/home/wuchan/sratoolkit/bin/fastq-dump: No such file or directory

說明使用fastq-dump命令,必須輸入完整的軟體sratoolkit/bin目錄的絕對路徑才能使用。

使用別人的軟體,發現sra檔案也不需要寫絕對路徑,也可以這樣輸入命令:

/share/home/yeguojun/softwares/sratoolkit.2.9.6-1-ubuntu64/bin/fastq-dump --split-3 SRR5831964.sra

最終得到的拆fastq檔案也儲存在當前資料夾下

[wuchan@login SRAdata]$ /share/home/yeguojun/softwares/sratoolkit.2.9.6-1-ubuntu64/bin/fastq-dump --split-3 SRR5831964.sra
Read 46413234 spots for SRR5831964.sra
Written 46413234 spots for SRR5831964.sra

 

相關文章