vcf2gwas:簡化全基因組關聯分析

生物信息与育种發表於2024-07-28

vcf2gwas 是一個 Python 構建的 API,用於 GEMMA、PLINK 和 bcftools,直接從 VCF 檔案執行 GWAS 以及多個分析後操作。

圖片

如何使用?

vcf2gwas的使用非常簡單。使用者只需提供變異呼叫格式(VCF)檔案和表型資料檔案,即可透過一條命令列啟動GWAS分析。例如:

# 安裝
$ conda install vcf2gwas -c conda-forge -c bioconda -c fvogt257 
# 測試demo
$ vcf2gwas -v test

# 執行
$ vcf2gwas -v <input:vcf> -pf <inputpheno:csv> -p1 lmm

該命令使用GEMMA的線性混合模型(lmm)分析單個表型。

特點

  • 易安裝:作為conda包或docker拉取,易於在相容機器上覆現GWAS。

  • 自動化:從軟體安裝到結果處理,全流程自動化。

  • 並行處理:支援多表型或不同個體集的高效分析。

  • 結果視覺化:自動生成曼哈頓圖和QQ圖,適合發表。

附加功能

  • 執行PCA或UMAP以降低資料維度。

  • 將相關SNP與感興趣基因/區域進行比較。

  • 提供額外的命令列選項以執行特定後分析操作。

結果
vcf2gwas使得GWAS分析對各種二倍體模型和非模型生物都易於訪問,特別適合分析大量表型或不同個體集。

圖片

對單個表型執行線性混合模型分析後輸出資料夾的示例目錄和檔案結構如下所示:

output/
└── 'model'
    ├── 'phenotype'
    │   ├── QQ
    │   │   └── QQ plot figure (.png)
    │   ├── summary file (.txt)
    │   ├── GEMMA output file (.txt)
    │   ├── GEMMA log file (.txt)
    │   ├── best_p-values
    │   │   ├── top 1% variants (.csv)
    │   │   ├── top 0.1% variants (.csv)
    │   │   └── top 0.01 variants (.csv)
    │   ├── manhattan
    │   │   └── manhattan plot figure (.png)
    │   └── significant SNP summary file (.csv)
    ├── files
    │   └── files_'file'
    │       ├── PLINK BED files (.bed, .bim, .fam, .nosex)
    │       ├── PLINK log file (.log)
    │       ├── GEMMA relatedness matrix (.txt)
    │       └── GEMMA log file (.log.txt)
    ├── logs
    │   └── analysis log file (.txt)
    ├── QC
    │   ├── phenotype QC plot (.png)
    │   └── genotype QC plots (.png)
    ├── summary
    │   ├── summarized top SNPs (.csv)
    │   └── top_SNPs
    │       └── phenotype top SNPs (.csv)
    └── vcf2gwas log file (.txt)

獲取更多資訊
訪問vcf2gwas GitHub頁面:https://github.com/frankvogt/vcf2gwas 獲取安裝指南和教程。

圖片

相關文章