kraken軟體操作手冊

weixin_34162695發表於2018-04-11

轉錄組資料質量分析完,想拿kraken軟體分析下資料有沒有微生物的序列汙染

找了全網沒看見什麼相關的指導文章,看官網的操作手冊也很雞助,所以自己翻譯了官網手冊以及寫了程式碼,希望對後來的人有些幫助。

Kraken是2013年Wood提出的的巨集基因組序列分類軟體,能夠快速對巨集基因樣品中的DNA序列進行分類,因此可以進行微生物檢測。Kraken在序列比對環節(環節C)採用精確k-mer匹配和精簡資料庫的方法(環節B),忽略基因變異,採取精確匹配;並且建立了專用資料庫與k-mer匹配相配合,極大地提高了檢測速度.Kraken分為兩個版本:記憶體開銷較大的normal版和將記憶體開銷限制為2Gb以內的mini版.Kraken速度極快,精度較低,適用於做微生物檢測的預處理.

官網網址:http://ccb.jhu.edu/software/kraken/

操作文件網址 :http://ccb.jhu.edu/software/kraken/MANUAL.html

一 安裝

1、如果安裝了miniconda的話可以直接用命令安裝

  conda install kraken

2、從kraken官網下載source包,其中包括了kraken的一些程式碼,安裝指令碼install_kraken.sh,以及readme檔案

在安裝指令碼目錄下執行

./install_kraken.sh $KRAKEN_DIR

$KRAKEN_DIR指定kraken安裝的目錄

當看到提示 "Kraken installation complete."說明安裝完成,隨後將kraken兩個主要的指令碼複製到加入環境變數

cp $KRAKEN_DIR/bin/kraken $HOME/bin

cp $KRAKEN_DIR/bin/kraken-build $HOME/bin

$HOME/bin你環境變數的位置

二、下載kraken標準資料庫

kraken-build --standard --threads 24 --db $DBNAME

--threads 24 指定執行緒數24

--db $DBNAME 指定安裝的目錄

當資料庫構建完成,可以使用以下命令刪除冗餘的檔案

kraken-build --db $DBNAME --clean

三、分類程式碼

kraken --db $DBNAME seqs.fa

主要引數:

--threads NUM 設定執行緒數

--classified-out 輸出已經被分類的序列也就是汙染的序列

--unclassified-out 輸出未被分類的序列也就是未汙染的序列

--output 輸出

| or > 也是輸出

--fastq-input 宣告輸入檔案是fastq格式

--gzip-compressed 宣告輸入檔案是.gz的壓縮格式

--bzip2-compressed 宣告輸入檔案是.bz的壓縮格式

--paired 如果是雙端測序,則需宣告為是雙端測序

四、例項程式碼

程式碼一:輸出classify序列和unclassify序列以及一個.kraken檔案

11558923-bdcf5790df32f801

--threads 8:指定執行緒 8

--db /data/program/Assessment/kraken_database/ 指定標準資料庫的路徑

--fastq-input--gzip-compressed 指定fastq檔案格式,這裡指定為gzip

--paired 指定是雙端測序

${output_forward_paired}${output_reverse_paired}輸入檔案的路徑與名稱:read1 read2

--classified-out 指定輸出分類的序列檔案——有汙染

${output_classify} 輸出分類的序列檔案的路徑及名稱

--unclassified-out 指定輸出未分類的序列檔案——無汙染

${output_unclassify}輸出未分類的序列檔案的路徑及名稱

> ${kraken} 輸出一個.kraken檔案

程式碼二:輸出報告,報告統計了汙染的比例,還有汙染的種類

11558923-e217cd73686e4f0e

${kraken}上面生成的.kraken檔案

> ${kraken_report} 指定輸出報告的路徑及名稱

最終我加入我自己的輸入檔案路徑與輸出檔案路徑等內容,寫成的程式碼如下:

11558923-2ffdb06bde1a29e6

nohup...& 是把任務掛到後臺執行

最終得到的報告如下:

11558923-6b5ec7bb5b64a186

98.46%未被汙染

1.54%被汙染,且列出汙染的序列屬於哪個物種。

就醬

希望對大家有幫助。

相關文章