單細胞資料 儲存方式彙總

kingwzun發表於2024-09-19

(單細胞下游分析——不同型別的資料讀入,與部分資料型別的轉化)

.h5ad(anndata 資料格式)

10x_mtx(cell ranger輸出,三個檔案)

就是cell ranger上游比對分析產生的3個檔案:
├── xxx_feature_bc_matrix
│ ├── barcodes.tsv.gz:細胞標籤(barcode)
│ ├── features.tsv.gz:基因ID(feature)
│ └── matrix.mtx.gz:表達資料(matrix)

具體檔案格式如下:

>barcodes.tsv.gz
AAACCCAAGAAACCCA-1
AAACCCAAGAAAGTCT-1
AAACCCAAGAAATTGC-1
AAACCCAAGAACAAGG-1

============
>features.tsv.gz
ENSG00000243485	MIR1302-2HG	Gene Expression
ENSG00000237613	FAM138A	Gene Expression
ENSG00000186092	OR4F5	Gene Expression
ENSG00000238009	AL627309.1	Gene Expression

============
>matrix.mtx.gz
%%MatrixMarket matrix coordinate integer general
%metadata_json: {"software_version": "Cell Ranger cellranger-8.0.1", "format_version": 2}
36601 643092 12843054
19846 1 1
8208 2 1
31505 3 1
22399 4 1

一般先使用read10X()對這三個檔案進行整合,得到行為基因、列為細胞的表達矩陣(為稀疏矩陣dgCMatrix格式,節約記憶體);然後再配合CreateSeuratObject()函式建立Seurat物件

counts.matrix.tsv.gz(一個檔案)

counts.matrix.tsv.gz格式的檔案裡面包含了轉成10x_mtx 格式的所有資訊:
image

  • 第一行是條形碼(基因序列)(barcodes.tsv.gz)
  • 第一列是基因(features.tsv.gz)
  • 其餘就是0/1矩陣(reads 計數)(matrix.mtx.gz)

相關文章