(單細胞下游分析——不同型別的資料讀入,與部分資料型別的轉化)
.h5ad(anndata 資料格式)
10x_mtx(cell ranger輸出,三個檔案)
就是cell ranger上游比對分析產生的3個檔案:
├── xxx_feature_bc_matrix
│ ├── barcodes.tsv.gz:細胞標籤(barcode)
│ ├── features.tsv.gz:基因ID(feature)
│ └── matrix.mtx.gz:表達資料(matrix)
具體檔案格式如下:
>barcodes.tsv.gz
AAACCCAAGAAACCCA-1
AAACCCAAGAAAGTCT-1
AAACCCAAGAAATTGC-1
AAACCCAAGAACAAGG-1
============
>features.tsv.gz
ENSG00000243485 MIR1302-2HG Gene Expression
ENSG00000237613 FAM138A Gene Expression
ENSG00000186092 OR4F5 Gene Expression
ENSG00000238009 AL627309.1 Gene Expression
============
>matrix.mtx.gz
%%MatrixMarket matrix coordinate integer general
%metadata_json: {"software_version": "Cell Ranger cellranger-8.0.1", "format_version": 2}
36601 643092 12843054
19846 1 1
8208 2 1
31505 3 1
22399 4 1
一般先使用read10X()對這三個檔案進行整合,得到行為基因、列為細胞的表達矩陣(為稀疏矩陣dgCMatrix格式,節約記憶體);然後再配合CreateSeuratObject()函式建立Seurat物件
counts.matrix.tsv.gz(一個檔案)
counts.matrix.tsv.gz格式的檔案裡面包含了轉成10x_mtx 格式的所有資訊:
- 第一行是條形碼(基因序列)(barcodes.tsv.gz)
- 第一列是基因(features.tsv.gz)
- 其餘就是0/1矩陣(reads 計數)(matrix.mtx.gz)