GATK4 Mutect2 call Short Variant

GATK4 Mutect2 call Short Variant

先来看一下GATK 官网对Short Variant的定义:

Short variants include single nucleotide (SNV) and insertion and deletion (indel) variants.

Mutect2

Call somatic SNVs and indels via local assembly of haplotypes

Mutect2有两种模式:

(i) somatic mode:分析中,一个肿瘤样本与正常样本相匹配;

(ii) tumor-only mode: 分析中, 只有一个肿瘤数据比对结果;

(i) Tumor with matched normal

利用提供的正常样本数据,Mutect2 只会找出那些体细胞变异;而在种系中普遍存在的变异会被Mutect2 忽略掉。对于那些在种系中无法很好界定的变异,Mutect2 会保留下来进行后续分析。

调用gatk Mutect2

gatk Mutect2 \
   -R reference.fa \
   -I tumor.bam \
   -tumor tumor_sample_name \
   -I normal.bam \
   -normal normal_sample_name \
   --germline-resource af-only-gnomad.vcf.gz \
   --af-of-alleles-not-in-resource 0.00003125 \ #变异不存在于种系中的期望值
   --panel-of-normals pon.vcf.gz \
   -O somatic.vcf.gz

Mutect2不需要运算 a germline resource和a panel of normals (PoN) ;只是利用这两个数据来过滤等位的变异位点。

种群等位位点频率格式如下:

  #CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO
      1       10067   .       T       TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC      30.35   PASS    AC=3;AF=7.384E-5
      1       10108   .       CAACCCT C       46514.32        PASS    AC=6;AF=1.525E-4
      1       10109   .       AACCCTAACCCT    AAACCCT,*       89837.27        PASS    AC=48,5;AF=0.001223,1.273E-4
      1       10114   .       TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA  *,CAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA,T      36728.97        PASS    AC=55,9,1;AF=0.001373,2.246E-4,2.496E-5
      1       10119   .       CT      C,*     251.23  PASS    AC=5,1;AF=1.249E-4,2.498E-5
      1       10120   .       TA      CA,*    14928.74        PASS    AC=10,6;AF=2.5E-4,1.5E-4
      1       10128   .       ACCCTAACCCTAACCCTAAC    A,*     285.71  PASS    AC=3,1;AF=7.58E-5,2.527E-5
      1       10131   .       CT      C,*     378.93  PASS    AC=7,5;AF=1.765E-4,1.261E-4
      1       10132   .       TAACCC  *,T     18025.11        PASS    AC=12,2;AF=3.03E-4,5.049E-5
 

(ii) Tumor-only mode

单个样本时,使用CreateSomaticPanelOfNormals 生成a panel of normals;

CreateSequenceDictionary 是Picard中一个功能,利用参考序列生成参考序列的索引(.dict).

调用CreateSequenceDictionary

java -jar picard.jar CreateSequenceDictionary \ 
      R=reference.fasta \ # .fasta 或 .fasta.gz
      O=reference.dict

调用gatk Mutect2

 gatk Mutect2 \
   -R reference.fa \
   -I sample.bam \
   -tumor sample_name \
   -O single_sample.vcf.gz

Mutect2 必须设定的参数:

--input -I :BAM/SAM/CRAM文件

--output -O :写入变异信息的加过文件

--reference -R :参考序列

--tumor-sample -tumor : 肿瘤样品名

参考:

GATK4 Mutect2 User Guide

你可能感兴趣的:(GATK4 Mutect2 call Short Variant)