SAM基因晶片分析軟體

likelet發表於2012-06-17

轉自:http://zhangyuexing.7ta.cn/Article/12289/1441

SAM 軟體
(Significant Analysis of Microarray)它是由 Standford 大學開發的一個免費軟體, 目前廣泛地被學術界所採用,進行挑選差異基因。SAM 軟體可以作為外掛在Office Excel 軟體中進行應用,很容易被生物醫學工作者掌握。SAM 軟體進行分析的一個基本前提就是需要至少 3 次實驗以上的重複。  這裡的重複可以是生物材料的重複,例如某種疾病包含多個病人;也可以是實驗的重複,例如藥物處理細胞做了 4 次實驗。通過重複實驗,才能從統計學意義上判斷差異變化的基因。可以理解 SAM 軟體和統計學 t-test 檢驗有類似之處。筆者從合作單位被編輯退回的稿件中瞭解到,有很多退稿是因為沒有進行重複實驗,例如對照和處理各一個樣本,然後認為熒光訊號值差異在 2 倍以上的基因就是差異的基因。審稿編輯的意見往往是需要加上重複實驗進行統計分析。
     舉一個例子,要研究某種疾病 A 的人群和疾病 B 的人群血液中有核細胞基因表達的差異(疾病 A 和疾病 B 人群分別至少要有 3 個人以上)。若是使用了單通道的表達譜晶片,例如 Affymetrix 的晶片,你可能得到例如表 1 這樣的資料:
                 表 1. 單通道晶片設計的例子(以訊號值進行計算)
                                      1
    樣 本 病 A1     病 A2   病 A3 ...    病B1   病B2   病 B 3...
基因
NM_001192 122    453    278       1345  2315  1954
NM_004836 4566   3567   5632      5643  5689  6112
AK025431  11831  13432  12543     24231 21998 19888
   在 SAM 軟體進行差異基因篩選的時候,          這種例子可以選擇 two class unpaired(2 因素不配對)的演算法。因為實驗研究的就是 2 組樣本,並且疾病 A 和疾病 B的病人之間沒有一一配對的關係。那麼在進行 SAM 軟體運算前,需要加一行樣
本識別標記(可參見表 2)  ,讓 SAM 程式知道哪些訊號值是來自同一組病人的。
                表 2. 單通道晶片資料在 SAM 軟體中的格式
    樣 本 病 A1     病 A2   病 A3 ...    病B1   病B2   病 B 3...
基因
          1      1      1......       2     2     2
NM_001192 122    453    278       1345  2315  1954
NM_004836 4566   3567   5632      5643  5689  6112
AK025431  11831  13432  12543     24231 21998 19888
另外加入的一行藍色字型就是樣本識別標記, 這樣 SAM 軟體通過格式上的預設,就知道哪些資料是同一組病人的不同重複。     目前發現單通道晶片有這樣一種可能的缺陷:若一個實驗進行的時間很長,例如 1-2 年以上,那麼進行晶片實驗的試劑之間有較大的差別,有時晶片雜交的訊號強度差異並不是生物樣品的差異,而是試劑不同帶來的差異。
   如果是使用雙通道晶片,筆者不建議某個病人 A 個體和某個病人 B 個體的RNA 混合在一起和一張晶片做雜交,因為你並不知哪兩個病人應該配對。筆者建議取一個共同的參照物。 選取共同參照物的基本要求就是比較容易得到該共同參照物樣本,並且和所研究的因素沒有關係。在下面這個例子中,可以取若干個 2正常人血液有核細胞的 RNA 混合物做一個共同參照, 也可以購買美國 Stratagene公司的 Universal Human Reference RNA sample 作為一個共同參照物,這樣得到的資料就將是一個比值(可參見表 3)              :
    表 3. 使用共同參照物實驗設計的雙通道晶片設計的例子(以比值進行計算)
     樣本   病       病        病         病       病      病
基因        A1/CK   A2/CK    A3/CK ...   B1/CK   B2/CK  B3/CK...
          1       1        1......       2       2      2
NM_001192 0.34    0.28     0.35      1.12    1.43   1.22
NM_004836 4.44    3.67     5.65      5.66    3.54   6.43
AK025431  1.22    0.98     1.19      3.42    2.46   2.89
   以上同樣可以用 SAM 軟體中 two class unpaired 的方法來計算疾病 A 組病人和疾病 B 組病人之間差異的基因。用比值進行計算的優點在於,各種試劑、操作產生的差異在比值中被消除掉了。   因此,在使用單通道晶片時,若需要在時間間隔比較長遠的資料之間進行比較,目前存在一種趨勢,即在某段時間內進行的單通道晶片實驗,安排做一張共同參照物 RNA 的晶片,然後得到比值;經過較長時間以後再做晶片實驗時,同時再安排一張共同參照物 RNA 的晶片,然後又得到比值,最後對不同時間段之
間的比值進行比較。 例如選擇一個細胞另外一種常見的實驗就是對動物或者細胞進行藥物處理。觀測藥物處理引起的基因表達變化,實驗重複了 3 次。這種實驗,用藥物處理後,除了採用上述單通道晶片試驗設計以及利用一個共同參照物來做雙通道晶片的
試驗設計外,    還可以把每次實驗的處理和對照樣品用不同的熒光素標記和一張晶片進行雜交。這樣就得到一個純粹的比值,資料格式如下:
                                 3
    表 4. 對照和處理同時雜交晶片實驗設計得到的晶片資料格式雙通道晶片資料
    樣 本 處理 1/對照 1    處理 2/對照 2 處理 3/對照 3 ...
 基因
NM_001192 0.23       0.12           0.15
NM_004836 3.55       4.24           3.56
AK025431  1.22       0.89           0.96
   在 SAM 軟體進行差異基因篩選的時候,這種例子可以選擇 one class 的演算法,大致的意思就是判斷是否和比值=1 是否有顯著性差別。   此時也需要另外在表格中插入一行,讓 SAM 軟體處理的時候知道只有一個因素。
    表 5.對照與處理同時和晶片進行雜交的雙通道晶片資料在 SAM 軟體中的格式
   基   因 處理 1/對照 1   處理 2/對照 2 處理 3/對照 3 ... ...
樣本
          1          1              1
NM_001192 0.23       0.12           0.15
NM_004836 3.55       4.24           3.56
AK025431  1.22       0.89           0.96
   由於在 SAM 軟體進行差異基因選擇時,可以通過調節引數來改變差異基因的數目。在文章中寫作時,可以根據基因變化的倍數來選擇變化的基因,並列出其他的一些引數,例如 False Discover Rate (FDR),或者再加上 Local FDR,具體
例子可參見圖 2。
   另外,對於有多因素分析的實驗,例如比較多個組織,然後尋找在某個組織中特異表達的基因,也可以利用 SAM 軟體中的 Multiclass 演算法。   由於 SAM 軟體通常需要根據需求或結果來調整引數,因此筆者認為利用晶片資料寫作的研究人員最好能學會使用 SAM 軟體。

           以上摘自《有關晶片寫作的思路》,其實在SAM安裝後在安裝目錄下有詳細的PDF說明及EXCEl例項,可具體自己參考,安裝SAM需提前安裝R程式。
 



相關文章