sra檔案下載及解析的問題

Q.1發表於2019-12-24

昨天在NCBI上下載了一份sra檔案,使用fastq-dump提取fastq檔案時遇到報錯:

2019-12-24T08:59:08 fastq-dump.2.9.6 sys: timeout exhausted while reading file within network system module - mbedtls_ssl_read returned -76 ( NET - Reading information from the socket failed )

這是我使用的命令:

fastq-dump --split-3 -O ERR3378079_output ERR3378079

檢視該github專案,發現fastq-dump可能還會從網上下載ERR3378079這條記錄,於是新增成全路徑:

fastq-dump --split-3 -O ERR3378079_output /data/path/ERR3378079

但是仍然報錯,後來發現fastq-dump還會在home目錄下快取index,快取目錄如下:

~/ncbi/public

這樣下載到一半我的home目錄就已經爆掉了,解決方案:

mkdir ~/.ncbi
echo "/repository/user/main/public/root = \"/data/tmp/sra\"" > $HOME/.ncbi/user-settings.mkfg

或者直接更改dump(不建議):

./sratoolkit.2.9.6-1-centos_linux64/bin/ncbi/default.kfg
該檔案中有一行
/repository/user/main/public/root = "$(HOME)/ncbi/public"
把後面那個更改成你想要的快取路徑就可以了

其中/data/tmp/sra替換成你自己的目錄,這樣快取路徑就更改到了/data/tmp/sra,就不會造成home目錄爆掉的尷尬情況了。

到最後還是沒能解決這個報錯,才發現是磁碟IO過高,等一會會就好了。。。

不過還是提前把要踩的雷挖了。

相關文章