# No.4
这次分享的是来自新西兰奥克兰大学大脑研究中心Jessie Jacobsen博士在2019年发表在Journal of Biomedical Informatics上的文章Evaluation of the performance of copy number variant prediction tools for the detection of deletions from whole genome sequencing data。
摘要
背景:在过去的十年中,全基因组测序(WGS)越来越流行,成本也在降低,这使得这种方法成为一种可行且敏感的变异检测方法。除了用于单核苷酸变异检测外,WGS数据还具有检测拷贝数变异(CNV)的潜力。许多CNV检测软件包是利用四种主要数据类型开发的:读取对、拆分读取、读取深度和基于汇编的方法。本研究的目的是评估每种主要方法在检测种系缺失方面的效率。
方法:WGS数据和Genome in Bottle consortium中NA12878个体的高置信度缺失调用是基准数据集。BreakDancer、CNVnator、Delly、FermiKit和Pindel的性能通过比较每个软件包在检测超过1KB的缺失时的准确性和灵敏度进行评估。
结果:WGS CNV不同检测方案的结果存在相当大的差异。最佳表现来自BreakDancer和Delly,敏感性分别为92.6%和96.7%,错误发现率(FDR)分别为34.5%和68.5%。相比之下,Pindel、CNVnator和FermiKit的疗效较差,敏感性分别为69.1%、66.0%和15.8%,FDR分别为91.3%、69.0%和31.7%。软件包之间的一致性很差,在所有五种方法确定的总共612个基准缺失中只有27个。
结论:评估的基于WGS的CNV检测工具在识别缺失方面表现出不同的性能≥1 kb,尤其是使用不同输入数据特征的数据。利用读取对数据的软件具有最高的灵敏度,即BreakDancer和Delly。BreakDancer的错误发现率也是第二低的。因此,在本分析中,读取对方法(特别是BreakDancer)是识别缺失的最佳方法≥1 kb,平衡精度和灵敏度。检测算法有改进的潜力,特别是在减少FDR方面。这项分析验证了基于WGS的CNV检测软件在可靠识别缺失方面的实用性,这些发现将在研究和诊断医学中选择合适的缺失检测软件时使用。
介绍
识别和描述遗传变异是遗传医学和研究的核心。变异通常分为三大类:单核苷酸变异(SNV)、小的插入和缺失(indels,通常定义为1-50bp)和较大的结构变异(SVs,通常定义为>1kb)。结构变异进一步细分为两类,取决于遗传信息的变化是平衡的(没有DNA的总损失)还是不平衡的(DNA的损失或增加)。缺失和倍增形成不平衡拷贝数变体(CNV),而易位或遗传内容保守的倒位形成平衡染色体重排(BCR)。
拷贝数变异在历史上被定义为基因含量变化>1000 bp。然而,随着用于识别这些变异的技术分辨率的提高,这种分类已成为一种命名而非实用性的分类,而且越来越清楚的是,个体可以在从1 bp到数Mb的连续范围内包含遗传内容的变化。
1959年,对拷贝数变化的研究开始于显微镜水平,在显微镜下观察整个染色体(核型分析)可以首次识别人类拷贝数变化,即唐氏综合征患者的21三体。这最终导致了对拷贝数变异(CNV)所代表的人类基因组变异进行测绘和编目的尝试。在过去的几十年中,技术的进步极大地提高了检测不平衡基因组变化的能力,今天,可以使用多种技术检测基因组内容中的部分染色体变化。目前鉴别CNV的诊断标准是染色体微阵列分析(CMA)。然而,该技术在分辨率方面存在局限性,临床报告阈值通常大于200 kb。染色体微阵列分析揭示了影响该区域的拷贝数变化程度,但无法将断点解析为碱基对水平,(CMA)只能检测基因组内容的总体变化,而不能检测单核苷酸、其他小变异或平衡的染色体重排。
随着成本的降低,全基因组测序(WGS)已成为一种可行且灵敏的CNV检测方法,在基因组研究中的应用迅速增加。WGS具有精确的碱基对分辨能力;对能够检测到的CNV大小没有理论限制。应用合适的分析工具有可能揭示所有类型的遗传变异,包括CNV、BCR、indels和SNV。
因此,用于从WGS中识别CNV的软件工具的开发(数量)出现了爆炸式增长,目前已有80多个工具可用。这些工具主要利用四种不同的WGS度量:读取深度、拆分读取、读取对和基于组装,每种度量都依赖于序列数据中的不同信息。简而言之,基于读取深度的方法依赖于这样一种理论,即基因组区域的读取覆盖深度反映了基因座的相对拷贝数,因此拷贝数的增加将导致大于平均覆盖率。相反,拷贝数丢失将导致该区域的读取覆盖率低于平均值。基于拆分读取的方法依赖于成对末端测序,其中每对中只有一个读取与参考基因组对齐,而另一个不匹配或仅部分匹配参考基因组。读取对或成对结束方法利用不协调映射的成对读取,其中读取对之间的映射距离明显不同于库的平均片段大小,或者如果读取对的一个或两个成员以意外方向对齐。最后,与先前依赖于参考序列初始比对的方法不同,基于从头组装的方法将reads组装成contig,然后将重叠群contig与参考基因组比对。
由于每种方法都使用从序列数据中提取的不同信息,因此每种方法都有其独特的优点和缺点。例如,基于读取深度的方法只能识别基因含量发生总体变化的SV(CNV而非BCR),但可以自信地检测发现的CNV的基因组变化方向。读取对方法的性能取决于对齐算法的选择,这对于重复区域来说可能是一个问题,因为在正确的读取位置上存在歧义。一般来说,读取对方法不易受GC偏差的影响,并且能够识别CNV和BCR。拆分读取方法要求读取跨越断点,因此检测SV的能力对读取长度非常敏感。然而,这种方法以单核苷酸的准确度解决了断点。最后,使用组装(的方法)分析基因组序列可能需要很长的运行时间,并且需要高性能的计算资源。然而,这种方法确实能够识别复杂的SV。考虑到这些因素,许多软件采用多种方法来识别CNV。
与基于全外显子组测序的CNV检测方法相比,基于WGS的CNV检测方法的性能报告较少,然而,最近的一份出版物报告了对基于读取深度的WGS CNV检测方法的评估,并提出了基于WGS CNV检测的建议工作流程。WGS CNV检测方法的其他比较已在软件初始报告中进行。在此,我们报告了人类CNV预测的所有基本WGS CNV方法的准确度和灵敏度的无偏定量比较,测试了每种方法的一个代表性,以及最常用的组合方法之一。由此产生的性能指标强调了选择适合目的的CNV检测工具的重要性。
结果
我们为WGS CNV检测的四种主要方法选择了一个软件包,并选择了一种组合方法进行评估。在这里,对BreakDancer(读取对)、CNVnator(读取深度)、Delly(读取对和拆分读取)、FermiKit(组装)和Pindel(拆分读取)预测的缺失进行了准确性和敏感性评估。
预测缺失的大小分布和跨工具的比较
我们任意指定了八个CNV大小的BIN,用于调查来自单个NA12878的基于WGS的变体调用(图1)。“truthset”中的deletions相对平均地分配在bins中,大部分缺失≤5kb(71.6%)。BreakDancer、CNVnator和FermiKit预测的大于或等于1KB的缺失与GIAB鉴定的缺失具有相似的大小分布。相比之下,Delly和Pindel的结果偏向于更大的缺失量,尤其是Pindel的缺失量为 49.4% > 10 kb。这种偏倚很奇怪,因为与其他方法相比,基于拆分读取的方法更适合检测小的缺失,然而,这一观察是针对非常小的变异(<300 bp)。
GIAB缺失的检测灵敏度
每个软件工具的总体性能如表2所示。从整体上看,Delly、BreakDancer、Pindel、CNVnator和FermiKit的敏感性分别为96.7%, 92. 6%, 69. 1%, 66. 0%和15.8%。每个工具的性能因缺失的大小范围而异(图2A)。Pindel对小的缺失显示低灵敏度,有3.29%的缺失在1-1.5kb范围正确识别。这与Pindel预测的在这个尺寸范围内的低缺失比例是一致的。所有尺寸的FermiKit的敏感性都很低,这可能反映了该工具预测的少量缺失(例如,141 vs Pindel预测的缺失数5139)。CNVnator的缺失识别在整个大小范围内是可变的,大小和敏感性之间没有一致的关系。最后,BreakDancer和Delly在整个缺失大小分布中表现一致,两种工具的性能相当。
软件错误发现率
在敏感性和错误发现率之间有一个自然的权衡。通常,提供高灵敏度的软件也会产生高比例的假阳性缺失,从而产生大量的验证工作。≥1kb的缺失, FermiKit, BreakDancer, Delly, CNVnator和Pindel的FDR分别为31.7%, 34. 5%, 68. 5%, 69. 0%和91.3%(表2)。缺失大小分布中每个工具的FDR如下图2B所示。在所有缺失大小的所有工具中,Pindel的FDR最高。Pindel的性能不佳在很大程度上可能是由于Pindel预测的缺失数量远远高于所有其他工具。总的来说,来自CNVnator的FDR随着缺失大小的增加而降低。所有经过测试的程序都显示,如果缺失超过10 kb,则FDR>50%。在这里测试的缺失大小范围内,FermiKit和BreakDancer的FDR相似,而Delly的FDR始终高于FermiKit和BreakDancer。
跨平台预测缺失的一致性
各个软件包之间正确识别的缺失有相当大的一致性,其中604个正确识别的真值集缺失中有589个通过至少2个工具识别(补充表1)。然而,所有软件包(BreakDancer、CNVnator、Delly、FermiKit和Pindel)之间的一致性相对较差,只有27个缺失(真值集中所有缺失的4.4%)(图3)。所有工具(找到的缺失合并)只遗漏了10个缺失,其中大多数(60%)偏向于所研究大小范围的两端(大于10 kb和1-1.5 kb,补充图1)。相对于所有方法检测到的27个缺失,这些缺失的重复元素(平均为46.59%,包括LINEs、SINEs和长末端重复)较少,而RepeatMaske检测到的占所有工具检测到的27个缺失的66.57%。
大多数(568个)真正的缺失是由BreakDancer和Delly确定的,只有极少数(36个)剩余的缺失是由其他包(而不是BreakDancer)确定的。在BreakDancer正确识别的568个缺失中,Delly也发现了这些缺失(表S1)。为了调查结合BreakDancer和Delly的分析是否有额外的鉴别能力,分别计算假阳性和联合假阳性的数量。与单独使用BreakDancer相比,仅排除了11个假阳性缺失。因此,仅考虑到Delly的成对缺失,BreakDancer的FDR(34.5%)略有下降,降至33.7%。
讨论
CNVs的准确鉴定对于研究和临床诊断都很重要,特别是考虑到CNVs在基因组中每碱基遗传变异的百分比最大(~ 1.5%)。相比之下,尽管每个个体的SNVs数量更多(大约360万SNVs vs 1117-1488 CNVs),但它们总共只占每个碱基基因组变异的0.1%。染色体微阵列分析是目前人类健康中cnv诊断检测的标准,然而临床阈值限制了其应用于鉴定> 200 kb规模相对较大的cnv。将WGS纳入CNV诊断检测有可能使鉴定临床相关CNV的敏感性增加4倍(与仅使用临床阈值的CMA相比)。因此,提高WGS的灵敏度不仅可以识别小尺度和大尺度的结构变异,还可以在一次测试中识别SNV和indels。
许多CNV检测软件包已经开发出来,它们以各种方式使用WGS,包括:读取深度、分割读取、读取对和基于组装的方法,或这些方法的组合。然而,在将WGS CNV检测应用于分子诊断之前,有必要对方法学性能进行综合评估。Trost等人最近报道了一种基于阅读深度的检测种系缺失方法的比较分析。
在这里,我们报告了利用WGS不同特征的四种主要缺失检测方法的无偏定量比较。我们选择BreakDancer(利用读对)、CNVnator(读深度)、Delly(读深度和分读)、FermiKit(组装)和Pindel(分读)软件包进行性能评估。将每个包预测的缺失与单个个体(NA12878)定义的高质量胚系缺失(≥1kb)进行比较。该数据集已由GIAB (Genome in a Bottle) Consortium[24]提供作为参考标准,并用于其他一些研究,这些研究量化了生物信息学工具发现cnv的能力。我们发现,对于所有缺失大小,只有BreakDancer和Delly的敏感性始终达到80%以上,而CNVnator、Pindel和FermiKit的敏感性低于70%。Delly对预测缺失大小范围的FDR为46-91%,其分布与GIAB的分布不同。BreakDancer预测的缺失的分布与真集缺失的分布一致,在缺失的大小范围内,FDR相对较低,为21-36%。
GIAB的一致性分析定义了软件包间发现的NA12878≥1 kb的真实缺失,表明检测软件预测的缺失之间几乎没有重叠(所有软件包预测的604个缺失中有27个)。此外,结合最佳表现的工具(BreakDancer和Delly)几乎没有什么好处,FDR仅下降了0.8%,相对于最佳表现的工具(BreakDancer)单独的表现,灵敏度水平保持一致。这是由于当只考虑由两个包预测的缺失和仅由BreakDancer预测的缺失时,正确识别的缺失数量没有差异。尽管所有软件包之间的整体一致性很差,但有许多被多个软件包预测的缺失,但不包括在真集中。具体来说,5个缺失被所有5个软件包识别,但没有被GIAB联盟识别。因此,有5个位点具有所有缺失的特征,可以用于生物信息学地识别WGS中的缺失。这些位点被所有工具使用不同的方法预测为缺失,但未被包含在GIAB真值集中,这表明GIAB分析可能没有识别出该个体的所有CNVs。
选择合适的真值集对于准确评估生物和生物信息学工具的性能非常重要。以前的比较CNV研究利用染色体微阵列分析的结果来验证,然而标准的微阵列通常检测> 20 kb的CNV,因此不可能验证小的CNV。由于文献中报道的许多致病缺失都小于这个阈值,包括组所确定的那些,因此,为了进行这项分析,需要一个包含较小规模cnv的数据集。因此,考虑了NA12878的GIAB高置信度缺失调用集。这是一个潜在的问题,因为一些用于在机器学习训练数据集中生成调用的程序也在我们的分析中被评估(BreakDancer, CNVnator和Pindel)。然而,这三种工具是与15个其他缺失调用程序结合使用的。
为了进一步减轻混杂的影响,BreakDancer、CNVnator和Pindel的缺失只有在经过PCR或阵列实验证实的情况下才被纳入1000个基因组数据集。此外,这些缺失调用仅用于GIAB生成高置信度调用集,以识别来自多种测序技术的序列数据中表示缺失的签名。因此,识别被这些软件调用的缺失的潜在偏差可能是最小的。有趣的是,在我们的分析中,BreakDancer、CNVnator和Pindel都没有表现出最好的灵敏度,尽管他们对真值集训练数据的开发做出了贡献。因此,我们和其他几个人[16,26,35-37]一起认为,尽管存在一些固有的潜在偏差,但这是最适合进行分析的真理集。
本研究中发现的最准确的缺失检测方法是基于读取对的,因为两个性能最好的软件包BreakDancer和Delly使用了这种方法。然而,人们会假设,包含多个信号的工具的性能将在缺失检测的准确性和灵敏度方面表现出改进。Delly是唯一一种使用了两种方法的检测方法,确实显示出比其他测试包更好的灵敏度。然而,在所有尺寸范围内,Delly也显示出更高的FDR。有趣的是,ICGC-TCGA DREAM挑战的结果(使用配对的肿瘤和非肿瘤数据在癌症样本中识别了体细胞SVs)也证明了拆分读取和读取对方法的高性能。在本报告中,Delly的峰值灵敏度为0.792,精度为0.966。然而,读取对方法BreakDancer表现较差(峰值灵敏度为0.000,精度为0.298),这可能反映了从包含体细胞突变的组织中调用SVs的不同挑战,因此存在遗传异质性。
因此,CNV算法的发展还有改进的空间,特别是在降低假阳性率方面,这对临床诊断尤为重要。确定确定SV大小(包括小于1 kb的)和类型(包括倍数和BCR)的总范围的最佳软件包和方法将需要进一步的调查。
结论
在本次评估中,基于WGS的CNV检测工具在鉴定种系缺失(≥1kb)方面表现出广泛不同的性能。通过对NA12878个体进行频繁分析和全面验证的基因组比对,我们得出结论,利用基于阅读配对的方法(即BreakDancer和Delly)的软件显示出最高的灵敏度。在这些包装中,BreakDancer的错误发现率在整个尺寸分布中排名第二(34.5%)。所有工具检测到的缺失一致性较差,但BreakDancer和Delly之间的验证缺失存在大量重叠。然而,使用两种试剂盒分析缺失几乎没有什么好处,因为两种试剂盒预测的缺失导致了相同的敏感性(因为两种试剂盒检测到相同数量的“真实”缺失),FDR仅下降了0.8%,从34.5%降至33.7%。虽然改进检测算法的机会仍然存在,但主要是减少FDR,基于读取对的方法(特别是BreakDancer)能够有效地识别大多数缺失,并将作为研究和诊断医学生物信息学管道的一部分。
方法
样本数据
与单个NA12878的GRCh37/hg19参考基因组对齐的FASTQ和二进制比对分布图(bam)文件从欧洲核苷酸档案库下载。
基于WGS的CNV检测软件
根据以下标准,从每个读取深度、分离读取、读取对和组装方法中选择一个CNV检测工具:单样本分析,针对高覆盖率基因组数据进行优化(∼30倍的覆盖范围),检测大小小于1KB的CNV,用于同行评审的研究,该软件包必须可免费下载,并获得研究/学术使用许可证。基于这些标准,选择软件包BreakDancer(v1.4.5)、CNVnator(v0.3)、Delly(v0.7.7)、FermiKit(v0.13)和Pindel(v0.2.5b8)进行进一步分析(表1)。
使用原始出版物中所述的推荐参数和过滤步骤运行每个工具;CNVnator: bin
size为100,仅保留q0 quality>0.5映射的部分读取的变体,BreakDancer:仅保留置信度阈值为Q≥ 60的变体,Pindel:每个CNV的支持读取数为≥2,Delly和FermiKit仅使用默认参数,没有推荐的过滤步骤。比较评估仅限于缺失调用≥1KB。
缺失检测
缺失的“真值集”是从 the Genome in a Bottle(GIAB)联合会基准SV调用资源中获得的,如svclassify所称,svclassify是一种基于机器学习的方法。该数据集是使用单类支持向量机(SVM)生成的,其中训练数据集为已识别的缺失调用,来自Personalis Genetics和千人基因组试验阶段结果,以及来自Spiral Genetics的插入。使用每种方法中的示例调用千人基因组的缺失:AB Large Indel Tool、PEMer、BreakDancer、VariationHunter、WTSI、CNVnator、mrFast、Event-Wise-Testing、Pindel、MOSAIK、Cortex、TIGRA、NovelSeq、AbySS、SOAPdenovo、Genome STRiP和SPANNER。这些调用中的大多数通过PCR或基于阵列的实验进行独立验证。从这些缺失中,SVM识别了注释,这些注释识别了不同于Illumina HiSeq、PacBio和Moleculo基因组序列数据中基因组随机区域的CNV。因此,根据与机器学习算法识别的SV相关联的注释调用高置信SV。
这些种系CNV已由GIAB提供,用作参考标准,并已在软件开发和验证以及最近的读取深度WGS缺失检测软件评估的许多研究中使用。对于此报告≥1kb的缺失用于统计分析;由GIAB报告的2744个CNV中的612个组成。