利用ONT測序檢測真核生物全基因組甲基化狀態

Johnson海馬體發表於2021-07-09

摘要

甲基化在真核生物基因組序列中廣泛存在,其中5mC最為普遍,在真核生物基因組中也有發現6mA。捕獲基因組中的甲基化狀態的常用技術是全基因組甲基化測序(WGBS)和簡化甲基化測序(RRBS),而隨著第三代測序技術的完善,ONT單分子奈米孔測序可以從單分子的角度來檢出甲基化的胞嘧啶和腺嘌呤電流的變化,從而實現由基因組中的一段序列中檢出5mC和6mA,然而精確地從單鹼基級別檢出5mC和6mA扔具有挑戰。本文利用第三代ONT測序技術獲得的序列及其電訊號來檢出真核生物全基因組範圍的5mC和6mA甲基化狀態。

背景

DNA甲基化主要發生在脫氧核糖核苷酸的第五位的胞嘧啶和第六位的腺嘌呤,前者普遍存在於真核生物,後者在原核生物中廣泛存在,也有研究報導6mA存在於真核生物。這樣的甲基化狀態在ONT測序儀捕捉到的電流訊號中,不僅單鹼基的電流會發生改變,而且其上下文的一段基因組序列也會發生改變。基於此,一些生物資訊學軟體先後被開發出來針對於這兩種甲基化的檢出有各自的優缺點。有研究指出在真核基因組中檢出5mC和6mA準確度較高的軟體分別為nanopolish[1]和tombo[2]

利用nanopolish檢出真核生物基因組中5mC的甲基化位置

材料和方法

利用minION平臺對目標生物血液提取的DNA不打斷建庫並進行全基因組測序,獲得12G序列及其電訊號檔案。安裝nanopolish(v0.13.2)。

步驟

  • 建立索引
nanopolish index -d fast5_files/ output.fastq
  • 比對
minimap2 -a -x map-ont reference.fasta output.fastq | samtools sort -T tmp -o output.sorted.bam
samtools index output.sorted.bam
  • Calling methylation
nanopolish call-methylation --progress -q cpg -t NCPU --verbose -r reads.fastq -b output.sorted.bam -g reference_genome.fasta > nanopolish_call_methylation.tsv
  • 篩選高置信度的甲基化和未甲基化位點
    calculate_methylation_frequency.py[3]
    nanopore-methylation-utilities/mtsv2bedGraph.py[4]
scripts/calculate_methylation_frequency.py -c 2 methylation_calls.tsv > methylation_frequency.tsv
# or
python nanopore-methylation-utilities/parseMethylbed.py frequency -i methylation_calls.tsv -o methylation_calls_freq.tsv --verbose -m cpg -u 2 -l -2
  • IGV視覺化或UCSC視覺化
    IGV視覺化[5]
python nanopore-methylation-utilities/mtsv2bedGraph.py --verbose -c 2 -i methylation_calls.tsv -q cpg -g reference_genome.fasta | sort -k1,1 -k2,2n | bgzip > methylation_calls.bed.gz
tabix -p methylation_calls.bed.gz
python nanopore-methylation-utilities/convert_bam_for_methylation.py -t 100 --verbose --remove_poor -c methylation_calls.bed.gz -f reference_genome.fasta -b output.sorted.bam | samtools sort -o methylation_calls.bed.remove_no_or_poor_methylation_reads.bam
# if all reads' coverage was needed, remap all reads to reference to find out
samtools index methylation_calls.bed.remove_no_or_poor_methylation_reads.bam

# now bam file can be loaded to igv via their bisulfite mode to see methylation sites and unmethylation sites.

image

相關文章