生信基礎知識複習之測序

weixin_33693070發表於2018-11-25

劉小澤寫於18.11.25

每學習一遍之前的知識,總能從不同角度獲取一些觀點,然後擴增自己的知識庫,這就是“知識迭代”

這次我也就是想到哪寫到哪,把自己認為重要的內容梳理下,用Q&A的形式展示,沒想到測序內容這麼多,所以先當作第一部分吧

測序相關

Q1:生物體內的DNA的ATCG核苷酸是怎麼轉換成計算機識別模式的?

9376801-4f2ccdfa819aba9d.png
ATCG結構

首先要區分

這是ATCG的化學結構,其中A、G結構類似,屬於嘌呤類;C、T(U)結構類似,屬於嘧啶類,我們測序的目的就是區別這幾種結構。人類基因組中有30億個鹼基,要想區分其中的四類鹼基,一個個分析結構肯定不靠譜,於是想到了使用顏色進行區分,也就是“光訊號”方法

9376801-6094410ff7cf941c.png
利用光訊號測序

Sanger測序、Illumina、454等都是利用光訊號。

光訊號方法就是要讓每個鹼基帶上顏色,就需要給每種鹼基帶上特定的熒光基團,熒光基團在測序儀鐳射作用下被激發,發出的光被照相機記錄下來,然後熒光基團失效,接著加下一個鹼基(利用了illumina的“可逆阻斷終止技術”,簡而言之,就是:在鹼基3‘端加一個阻斷基團,當聚合成功之後,就不能在繼續3‘端加其他鹼基了,這時利用鐳射捕獲熒光訊號,之後切掉熒光基團和阻斷基團,讓下一個帶熒光的鹼基繼續進行)。

另外還可以用“電訊號” (例如英國牛津奈米孔公司ONT的MinION測序儀以及18年被illumina以12億美金收購的太平洋生物公司的SMRT技術)。基本思想就是:4種鹼基結構不同,帶的電荷就不同,在聚合的過程中,讓它們通過電極,產生不同的電訊號,利用電訊號來區分【不過這種測序裝置的靈敏度要求要比光訊號更嚴格,才可以檢測微小的電訊號差別】

然後要規模

早起Sanger測序是利用了“末端終止技術”,這樣準確但是效率比較低,因此illumina開發了“邊合成邊測序”,每合成一次就可以讀取一個鹼基,並且合成越長,測序讀長就越長。這種技術就需要利用PCR進行大規模的擴增,但是我們知道,PCR技術收到酶活性的影響是有合成限制的,不可能無限擴增下去,illumina給出的解決方案就是:“雙末端測序” ,就是正向測一段,反向再測一段,這樣就在PCR迴圈一定的情況下,增加了測序讀長

Q2:測序的基本流程是怎樣的?

以常用的illumina二代測序為例,大體分為:建庫、cluster、測序三步

  • 建庫之前:首先進行DNA樣本的質量檢測【1. 最好取單倍體(二倍體或多倍體有等位的雜合位點,測序時不容易分割槽哪種時物種真實存在的雜合位點,哪種時測序錯誤導致的假陽性 );2. DNA純度要達到OD值要求(也就是DNA不能混雜蛋白質,對人和動物最好用紅細胞提取DNA );3. DNA樣本不能降解(因為測序時需要對樣本進行隨機打斷,一般來講,DNA越長,打斷的隨機性就越高,比如15K序列打斷成500bp文庫,這樣打斷的組合方式就很多,但1K的序列打斷成500bp文庫,組合方式就很少。如果降解成小片段,就無法進行隨機打斷);4. 測序量要夠,能滿足建庫要求(測序的資料量是由加入的樣本量決定的,並且為了重複需要儲存備份)】

  • 建庫: 先理解“文庫”(它是DNA片段的集合,將測序DNA隨機打斷就構成了DNA文庫)。建庫的過程可以想象成是硬碟格式化,出廠的硬碟(也就是未處理的樣本DNA)直接插入計算機(測序儀)是不被識別的,需要分割槽掛載(也就是檢測、打斷、加接頭等操作)後才可以。

    第一步:隨機打斷
    這時的DNA是一條很長的片段(比如幾百K的片段),使用機械法、酶接法、超聲波(常用),然後設定打斷的大小如500bp,然後這個長DNA就會斷成許多的500bp的短片段,就形成了500bp左右的文庫(需要注意:這裡的500bp表示大部分片段在500bp左右,但並非每條片段都正正好好是500bp,可以存在400bp或者700bp)【常見的文庫還有170bp文庫、350bp文庫、800bp、2K、5K、6K等】一般1K以下屬於小片段文庫,1K以上是大片段文庫。文庫大小的值又叫作“插入片段長度 Insert size”(這個值很重要,在序列拼接、短序列比對中會經常用到)

    第二步:電泳
    將一定範圍內的DNA進行回收,如果要500bp文庫,可以回收300-800bp的膠

    第三步:3‘加A
    在3‘加上一個A鹼基,將原來平末端變成粘性末端,更容易在後續過程中連線引物和接頭

    第四步:加index標籤
    這是一個6-8bp的鹼基片段,用於區分不同的測序樣本。現在測序一條lane 能產生30G以上的資料,但是有的物種DNA沒這麼大,為了減少機器空轉,可以將不同物種的DNA混合起來進行測序,但是下機後如何區分提交給客戶呢?這就需要利用標籤

    第五步:加接頭

    加接頭目的是將測序片段固定(或者叫“種”,種花的zhong)在flowcell的lane上,防止被測序的液體沖走。接頭包括:P7接頭、P5接頭,其中P7接頭和lane上的一樣,P5和lane上互補,這樣的目的是為了後面的橋式擴增

  • cluster: 這個詞是“簇”的意思,也就是富集序列。因為測序需要熒光訊號,如果僅對一條序列進行檢測,那麼訊號很弱,識別錯誤率會很高,如果對一簇相同的序列同時檢測某個位點的光訊號,那麼準確度就大大提高
    這個過程就是“橋式PCR”,原來一條鏈以指數增長成為一簇“克隆”
    序列條數x測序讀長=一次測序量

  • 測序:加入dNTP(與橋式PCR中加的普通dNTP不同,它的3‘被疊氮基團修飾)、聚合酶。先從cluster同一條鏈的第一個鹼基開始測,再到第n個鹼基,直到測完整條鏈,得到reads1【注意這裡才正式出現了reads這個名詞,意思就是:一個鹼基一個鹼基讀取】
    測完reads1,加入鹼性溶液將剛才測序完的鏈解鏈沖掉,加再入第二種測序引物,正好reads2的測序引物結合位點在index序列旁,先讀取6-8個鹼基測得index序列
    然後合成原來測序鏈的互補鏈,並切除原來測序鏈,還是按照原來方法測的reads2

測序完成後並沒有得到想要的ATGC鹼基順序,而是一堆照片,下面就是影象處理轉換成有顏色的光點檔案(二進位制BCL檔案,即basecalling),其中包括測序儀編號、run序號、lane序號、tile號、X/Y座標、index、reads1/2、鹼基序列、質量序列、是否通過質量過濾(1為通過;0表示質量差)

Q3:已經知道文庫有大片段文庫(1K以上)和小片段文庫,文庫多大就能測多大嗎?另外測序是雙端測150bp左右,那麼中間還有一部分沒有測到,這樣會不會有問題?基因組上的這部分割槽域會被忽略嗎?

首先,不管構建多大的文庫,測序得到的都是兩端很短的序列(比如雙端150就是得到兩個150bp的reads);

其次中間測不通並不會有問題,而且是非常正常的現象!因為文庫構建是隨機打斷過程,所以即使第一條片段中間沒有被測到也沒關係,後面的其他片段一定能測到這中間的部分(因為一次測序過程會產生成百上千萬條reads,而基因組就那麼大)

另外,你可能會想:既然只能測兩端很短的一部分,那麼小片段和大片段文庫的區別在哪?反正都測不完。其實,大片段文庫的目的,除了得到序列以外,更重要的是,為了獲取片段的座標距離(即兩條reads之間的物理距離關係,將會為序列拼接和基因組結構變異檢測提供幫助) 。當然,目前大片段文庫還有一些問題,比如現在PCR手段不能擴增太長的片段,另外我們只能測兩側的很短的片段,那麼中間合成出來卻不能測,造成了浪費

但是這些問題illumina給出了大片段文庫的解決辦法

在隨機打斷序列後,大片段比小片段文庫多了一個環化處理,經過末端修復,再將一個線性長片段頭部進行生物素標記,再進行環化(即:把片段首尾連線成一個環)【我們現在知道了:小片段文庫是pair end; 大片段文庫是mate pair
曾經我也是為這兩個概念搞的頭暈轉向?

9376801-5f2b1acf14236911.png
理解Mate pair

關於大小片段文庫的差別:

9376801-c19da29fa5ba2bf5.png
大小片段文庫的差別

Q4:為什麼不能測完整的基因組?

理想的情況是:基因組有多大,我們就能測多大

但事實是:我們提取的DNA就不是完整的一整條,而是斷成許多片段,比如10M基因組提取出來,可能也就剩一堆幾百K的片段。現在可以做的就是對這些幾百K的片段隨機打斷測序;另外,目前二代測序基本都依賴PCR擴增,因此限制了讀長

Q5: 目前市面上一二三代測序並存,怎麼選擇?

存在即合理,因為沒有任何一種測序技術能勝任任何工作,才會出現現在的局面。對於選擇困難症患者來講,一般可以從測序讀長、通量、準確性、價格角度考慮

9376801-e933b36f13915596.png
不同測序簡單瞭解

所以也能理解,為什麼illumina是目前的龍頭,另外收購Pacbio後它在三代的市場又可以一展拳腳了

Q6: GC bias是什麼意思?

基因組正常的GC含量是35-65%,如果小於35%或者大於65%就屬於異常。我們知道AT是2個氫鍵連線,而GC是3個氫鍵,因此如果GC含量太高,在PCR過程中解鏈需要的能量更高,導致模版鏈更難開啟,預設的溫度下,DNA模版變性不完全;另外PCR產物難易結合到模版,DNA聚合酶也難以延伸,結果就是出現非特異性條帶,不容易被擴增,因此也無從談及測序,最後基因組覆蓋不均勻,丟失部分資訊

對於這樣的樣品,可以構建PCR-free文庫 ,但需要更多樣本量

Q7: 關於讀長、插入片段大小的選擇

我們知道了小片段測序文庫中有多種規格可供選擇,如:170bp、350bp、500bp、700bp等。讀長的話,在保證準確性前提下,越長越好,有利於序列拼接。例如Miseq可以實現PE 300bp的讀長,如果選擇500bp文庫和Miseq PE300(效果可以和454差不多了),那麼中間就會有100bp重疊區域,發生了所謂的“片段測通”,可以利用這個區域將兩個reads拼接起來,形成更長的序列。

文庫大小需要和reads讀長相協調,對於較短的測序片段,文庫不能過大;對於De novo 拼接,可以先使用小片段文庫,然後轉為大片段文庫,並逐級增加文庫大小如2K、6K、10K、20K等【目的就是合理使用重疊區域進行逐級拼接】

Q8:為什麼小片段文庫如500bp需要兩端分別測,而不能一次測通500bp呢?

利用PCR反應是可以實現的,就是一直擴增,把500bp全部測出來。不能這麼做的一個因素是:PCR中DNA聚合酶的活性會下降,因此測序錯誤率會隨著測序長度增加而增加 ;另外一個因素就是Phasing,按說cluster中所有片段都要保持同步,第一次大家都加第一個鹼基,第二次都加第二個鹼基… 但實際上,總有幾個走的快或者走的慢(一次加兩個鹼基或者這一次一個鹼基也沒加),這些“離群”的鹼基出來的熒光值就會帶給整體干擾

Q9:不同的測序,不同的操作?

對於全基因組測序,就是按上面的測序步驟就好;

對於轉錄組測序,就需要考慮RNA反轉錄的問題,那麼是先反轉錄再打斷還是先打斷後反轉錄呢? 其實比較高效的方法是:先反轉錄後打斷。一般轉錄本比較短(小於2K),那麼選擇文庫時就不能太大(比如,不能選800bp文庫,因為2K的序列,打斷成800,隨機性不是很好),可以考慮小一些的文庫(300左右)

另外還有很多測序型別:外顯子組、甲基化、小RNA、巨集基因組等


歡迎關注我們的公眾號~_~  
我們是兩個農轉生信的小碩,打造生信星球,想讓它成為一個不拽術語、通俗易懂的生信知識平臺。需要幫助或提出意見請後臺留言或傳送郵件到Bioplanet520@outlook.com

9376801-8a0adfaf13550bcd.png
Welcome to our bioinfoplanet!

相關文章