BED(Browser Extensible Data)檔案和 WIG(Wiggle)檔案是兩種用於基因組資料儲存和展示的常見格式,在瀏覽基因組資料時這兩者用途明顯不同。
BED 檔案
特點:
- 格式簡單:通常每一行代表一個基因組區域,包含的基本列為染色體(chromosome)、起始位置(start)、結束位置(end),此外還可以包括額外的列如名稱(name)、分數(score)、鏈資訊(strand)等。
- 用途廣泛:多用於表示離散的基因組區域,如基因的外顯子、調控元件(如增強子、啟動子)、複製起始位點等。
- 相容性強:被大多數基因組瀏覽器(如 UCSC Genome Browser、IGV)和分析工具支援。
示例:
chr1 1014236 1014737 LUAD_39 4.19
chr1 1290089 1290590 LUAD_113 3.42
chr1 1291752 1292253 LUAD_114 5.67
這裡每行表示一個基因組區域,包含染色體、起始和終止位置、區域名稱和得分。
WIG 檔案
特點:
- 連續資料展示:用於表示在基因組上連續的數值資料(如訊號強度、測序深度)。
- 兩種模式:
- VariableStep:資料點之間位置不固定,常用於表示不均勻分佈的資料。
- FixedStep:資料點之間位置固定,常用於表示均勻分佈的資料。
- 適用於密集資料:通常用於展示如測序覆蓋度之類的密集資料。
示例:
- VariableStep Format:
variableStep chrom=chr19 59304701 10.0 59304702 12.5 59304703 15.0
- FixedStep Format:
fixedStep chrom=chr19 start=59304701 step=1 10.0 12.5 15.0
主要區別
-
資料型別:
- BED: 表示離散的基因組區域(如基因、增強子)。
- WIG: 表示連續的數值型資料(如測序覆蓋度、訊號強度)。
-
格式和用途:
- BED: 多欄位製表符分隔格式,用於描述區域的資訊。
- WIG: 適用於表示基因組範圍內的數值變化,支援兩種模式(VariableStep 和 FixedStep)。
-
應用例項:
- BED: 用於表示比對結果的位置、基因註釋、變異位點等。
- WIG: 用於表示實驗如 ChIP-seq、RNA-seq 等生成的覆蓋度資料。
示例對比
BED 示例
chrom start end name score
chr1 1014236 1014737 LUAD_39 4.19
chr1 1290089 1290590 LUAD_113 3.42
chr1 1291752 1292253 LUAD_114 5.67
WIG 示例(VariableStep)
variableStep chrom=chr1 span=100
1014236 4.19
1290089 3.42
1291752 5.67
總結
- BED 檔案:適合於基因組註釋和離散區域的表示。
- WIG 檔案:適於展示基因組上的訊號或覆蓋度等連續走勢。
根據需要展示和處理的資料型別,可以選擇適合的檔案格式。兩者都被廣泛用於基因組資料的視覺化和分析。