生信分析預處理:plink兩種格式識別與轉換

精準醫學Lucky博士發表於2020-11-16

生信分析預處理:plink兩種格式識別與轉換

檔案格式1

bed fam bim 是一組的:

bed

bed檔案採用二進位制的方式儲存檔案,代表的資料意義和其他兩個檔案對應;

圖片

bim

圖片

1.第一列是染色體資訊

2.第二列是snp的名字

3.第三列是摩爾距離,檔案中說可以用0,沒關係

4.第四列是物理距離

5.第五列是次要等位基因

6.第六列是主要等位基因

舉例:

圖片

fam

圖片

舉例:

圖片

檔案格式2

ped 和 map 是一組的

ped

圖片

舉例

圖片

每一行是一個個體,前六列是固定的,從第七列開始後面就是每個snp位點的基因型情況,第七列第八列就是第一個snp位點,第九列第十列就是第二個snp位點,依次類推。。。 其中 0 代表 no calling, 從圖中可以看出 第一個個體第一個snp 就是 00 第二個個體第二個snp 就是 AG 。

我們再回過頭來看前六列:

第一列 Family ID

第二列 Individual ID

第三列 Paternal ID

第四列 Maternal ID

第五列 Sex (1=male; 2=female; other=unknown)

第六列 Phenotype

圖片

map

圖片

第一列代表染色體

第二列代表snp的名稱

第三列代表摩爾距離,一般用不上

第四列代表物理距離,這個有用的

舉例:

圖片

格式轉換

bed bim fam 轉 ped map

命令:

plink --bfile bed等檔案字首 --recode --out ped_map相應要生成的檔案字首

轉化完成提示:

圖片

ped map 轉 bed bim fam

plink --file ped_map相應的檔案字首 --out bed等檔案需生成的字首

圖片

相關文章