四種鹼基的判讀-Hiseq測序原理2

weixin_34249678發表於2018-12-16

本文回答以下兩個問題:
1. 根據掃描得到的光點圖,如何判斷一個位置上的鹼基是什麼
2. 評估1中判斷的可靠性

插圖全部來自【陳巍學基因】視訊2:HiSeq工作原理,本文是對該視訊的學習筆記

1. 四種鹼基的判讀規則

6012414-6e4d62d0d87e2ec2.png
6012414-4d303a044f13cdd4.png
6012414-0fd7504419426f71.png
6012414-2556b81d6acaed83.png
  • C > 0.6 即 Ia/Ib > 1.5,該位置的鹼基是“好鹼基”
  • Ia :光點中佔比最高的熒光素含量
  • Ib :光點中佔比第二的熒光素含量
  • Pass Filter:前25個鹼基中,壞鹼基的個數小於等於1,則該read的Pass Filter=pass,否則不pass
6012414-f6ef43a75baeba37.png
  • 對data進行Pass Filter的目的:去掉多克隆cluster
  • 多克隆cluster中光點上,佔比最高的熒光素含量與佔比第二的熒光素含量相近,判讀誤差大,無法確定到底是哪種鹼基
  • PF rate = Pass Filter的reads數目/總的測到的reads數目
  • 上樣密度過高,PF rate 會下降(多克隆cluster會增多)

2. 評估鹼基判讀

Quality Score
  • 評價一個位置上鹼基判讀可靠性的指標,評價鹼基誤判的可能性


    6012414-35afecb9a4c349bf.png
  • Q30比例 = 達到或超過Q30的資料 / 總的Pass Filter的資料


    6012414-e6094c7dcc701624.png
6012414-beed5aedbf9b7054.png
6012414-f2fe8b79d5957b28.png

6012414-1cad106ad894f003.png
linux環境下FASTQ檔案預覽

相關文章