2021-12-27

Nat Rev丨癌症基因组测序数据的计算分析

原创 珍奇 图灵基因 2021-12-27 07:03

收录于话题#前沿生物大数据分析

撰文:珍奇

IF60.716

推荐度:

亮点:

本文描述了癌症基因组生物信息学分析中涉及的主要步骤,回顾了关键算法的发展,并重点介绍了流行的工具和新兴技术,讨论了实验设计中的问题、测序方式的优势和局限性以及未来的方法学挑战。


近年来,随着高通量测序技术的发展,人类已经可以从单碱基突变到染色体,乃至全基因组规模对癌症基因组进行分析,由此对肿瘤相关突变情况有了全面了解。2021年12月8日,哈佛医学院Peter J. Park课题组于Nature Reviews Genetics杂志发表了一篇名为“Computational analysis of cancer genome sequencing data”的综述,本文重点介绍了近年来使用基因组测序数据检测体细胞改变相关算法的创新,讨论了当前测序技术的局限性以及当今使用的算法范式可以解决问题的程度,并提出了特定的临床应用主题及体细胞变异的解释,以及检测预定热点突变的技术,以及计算免疫肿瘤学、单细胞技术、长读长等新兴领域。


外显子组测序和全基因组测序 (WGS) 已成为研究中表征基因组改变的常见方法,而选定基因的靶向测序是检测临床实践中治疗相关热点突变的常规方法。随着越来越多肿瘤基因组测序的出现,研究人员扩展了多种癌症类型,描述了广泛且复杂的结构变异,揭示了塑造肿瘤进化和异质性的突变模式,研究了非编码突变在癌症中的作用并阐明了肿瘤免疫逃避和抗癌治疗抵抗的分子机制。近期,国际癌症基因组联盟的全基因组泛癌分析 (PCAWG) 项目报告了对跨越 38 种肿瘤类型的 2,658 种原发性肿瘤的 WGS 数据的分析。



从基因组测序数据中准确表征体细胞改变对于获得生物学见解至关重要。尽管算法开发取得了进步,但不同方法的应用往往会产生不一致的结果,特别是对于小部分细胞中的变异或单核苷酸替换以外的变异类型。


预处理序列的读取

测序数据分析的第一步包括将测序读数(通常以 FASTQ 或 BAM 格式从测序设施提供)映射(比对)到人类参考基因组。将短读数映射到人类基因组序列是复杂的,需要启发式方法,目前最流行的癌症基因组分析比对仪是 BWA-MEM。该算法可以有效地将相对长的读数(从 70 bp 到几百个碱基对)与人类基因组进行比对,支持双端读数和嵌合比对,同时对错配具有鲁棒性。但比对可能会受到生物变异性(例如多态性)、测序错误、片段重复、重复序列和不完整的参考基因组的混淆,所有这些都可能导致映射不明确或错误。因此,基因组比对需要选择参考基因组版本。 Genome Reference Consortium 于 2013 年发布了人类参考基因组的最新版本 GRCh38。不同版本的基因组会导致分析输出的差异,尤其是在重复区域,但与不同分析工具的影响相比,这些差异相对较小。随着无间隙、端粒到端粒组装的可用性,在不久的将来有可能达到稳定的人类参考基因组。


检测单核苷酸变异及插入缺失突变

单核苷酸变异(SNV) 和插入缺失是导致肿瘤发生最常见的突变。本文使用术语 SNV 来指代体细胞 SNV。变异等位基因分数 (VAF),即支持候选突变的读数除以该位置的读数深度,是寻找体细胞变异的关键决定因素。对于种系变体,杂合变体的 VAF 接近 0.5,纯合变体的 VAF 接近 1。对于体细胞变异,VAF 通常大大低于 0.5,这取决于肿瘤纯度、候选位置的拷贝数和肿瘤内异质性。评估测序读数支持的替代等位基因是否代表真正的突变或人工制品是变异检测的核心任务,大多数工具使用匹配的正常样本(通常是血液)作为对照。


许多研究在比较现有突变调用方法的性能时发现了不同的一致性。 ICGC-TCGA DREAM 体细胞突变识别挑战使用模拟癌症基因组来对管道进行基准测试,其他基准测试工作侧重于来自临床样本的测序数据。尽管统计模型越来越复杂,但变异识别过程的一个重要组成部分是一组专门的过滤器,为的是消除误报的可能。这些过滤器包括链偏差、支持读取的映射质量、附近插入缺失或多个替代等位基因的存在以及读取对齐模式是否在基因组区域是“嘈杂的”。这些因素无法在标准线性模型中有效捕获。因此,在基因组浏览器和实验验证中检查对齐的读取模式仍然是获取全面突变集的必要步骤。



突变特征分析

体细胞突变是由特定的突变过程引起的,例如有缺陷的 DNA 修复、不完全的 DNA 复制及暴露于诱变剂,许多这样的过程会诱导特定的核苷酸变化。癌症基因组以不同的相对丰度共享这些突变过程的足迹。从足够多的癌症外显子组或基因组中,可以从头发现作为突变谱基础的独立成分,每个成分被称为“突变特征”。


尽管许多特征的机制起源仍有待阐明,但突变特征分析已在提供突变机制方面凸显出它的重要性。事实上,先前研究已经描述了多种外源性因子、DNA 修复缺陷和疗法的突变特征。不同肿瘤类型中突变特征的表征可以更好地了解不同组织中癌症的潜在机制。在正常和恶性组织中都观察到了一些 SBS 特征,例如“时钟样”特征。



分析体细胞结构变异

随着 WGS 的出现,人类癌症中体细胞 SV 的表征取得了很大进展。从 WGS 数据推断的 SV 范围从简单的删除、插入、重复、倒位和易位到拷贝数变化、转座元件插入、病毒整合、端粒长度变异和复杂的重排。CNV 和 SV 在本文中用于指代种系或体细胞变异,CNA(也称为拷贝数畸变)来指代体细胞 CNV 和“体细胞 SV“。


传统的细胞遗传学技术,如荧光原位杂交 (FISH) 和光谱核型分析对于遗传疾病和大染色体改变的常规诊断很有用,但它们的空间分辨率仅仅是在兆碱基的数量级。使用阵列比较基因组杂交 (aCGH)和 SNP 阵列将空间分辨率提高到 100 kb数量级。一些基于阵列的平台还提供有关杂合性拷贝中性丢失 (LOH) 事件、肿瘤纯度和倍性的信息。 WGS 可以通过单核苷酸分辨率的断点识别 CNA 及其潜在的 SV。



在将双端测序读数从肿瘤基因组映射到参考基因组后,SVs 可以通过分离读数和不一致读数对簇的存在来识别。几乎所有的 SV 检测算法,都依赖拆分读取和不一致读取对信息来检测 SV。然而,断点连接通常显示出复杂的模式。为了缓解这个问题,CREST、SvABA、BRASS和 Manta等方法从原始读数组装的重叠群改善了读数映射和断点处插入序列的表征。读取深度数据可以提供额外的信息,以改进对缺失和扩增的检测。由于某些体细胞 SV 的 VAF 较低,因此检测体细胞 SV 比检测种系 SV 困难得多。因此,根据本地上下文动态确定适当的阈值(例如,支持拆分读取的数量)以及用于提高检测灵敏度的各种过滤器,是算法成功的关键。分析 SV 断点处的序列同源性可以揭示在人类癌症中起作用的 DNA 修复机制。一些 SV 特征已被证明与临床相关,例如,显示微同源性的插入缺失表明同源重组存在缺陷。


此外,WGS 研究能够发现其他类型的复杂基因组重排。WGS 数据还能够详细表征 SV形成的已知机制,例如断裂-融合-桥循环(BFB 循环;以与多次折返反转相关的拷贝数增加为特征)和染色体外 DNA 元件的产生,它们构成自我复制的环状 DNA 结构,扩增到高拷贝数并且通常含有致癌基因。复杂基因组重排的多样性、复杂性和重叠特征,再加上它们在高度重排的肿瘤中的共定位,使得它们的检测和分类具有挑战性,通常需要大量的人工管理。


尽管对低水平表达的转录本的敏感性有限,但 RNA-seq 数据可用于识别融合癌基因。标准方法包括将测序读数映射到转录组以识别不一致映射的读数或映射到融合连接点的读数。 Arriba、TopHat-Fusion、STAR-Fusion和 deFuse等工具遵循这一策略。



克隆组成和进化

癌症进展是一种进化过程,其克隆竞争是由体细胞突变的积累所推动的。因此,肿瘤是具有不同形态和分子特征的细胞的复杂混合物。肿瘤内异质性是耐药性和复发的基础,并且与不良预后相关。因此,根据突变数据剖析克隆结构对于理解癌症进化的分子基础很重要。

克隆突变是在癌症发展过程中产生的,因此存在于大多数癌细胞中,而亚克隆突变是在一部分癌细胞中检测到的。上面讨论的大多数算法都可用于检测亚克隆突变,但已经开发出专门的方法来推断亚克隆结构,尤其是当来自同一个体的多个样本时(跨时间或跨空间)。尽管具有标准测序深度的 WGS 在检测亚克隆突变方面受到限制,但它对 SNV的全基因组覆盖和更准确的 CNA 表征允许推断 CNA 相对于 SNV 的时间顺序。


尽管几乎所有肿瘤样本的基因组分析都基于单次活检,但需要多区域采样来揭示克隆分布的空间复杂模式。此类多区域研究已证明在描绘肿瘤克隆的异质性及其进化轨迹方面非常有效,强调了进化分支的共性以及亚克隆驱动因素和染色体不稳定性的作用。这些研究显示了治疗对肿瘤突变景观及其克隆组成的影响。


可视化和探索癌症基因组

癌症基因组分析所有阶段的一个关键组成部分是数据可视化和探索性分析。在变体调用步骤中,通常会使用集成基因组学查看器 (IGV)等工具对候选突变的读取级数据进行目视检查。为了研究体细胞突变的功能和治疗相关性,cBioPortal提供了对来自大规模癌症基因组学项目的全面基因组和临床数据的轻松访问。美国国家癌症研究所的基因组数据共享、GenomePaint(儿科癌症)和国际癌症基因组联盟数据门户等其他门户也提供了许多工具,用于交互式探索跨基因、样本和途径的基因组改变,以及将它们与临床属性相关联。目前,大多数工具都专注于 SNV 和 CNA;为了充分利用 WGS 数据,用于可视化各种类型的 SV 和用于多种数据类型的综合分析的工具将很有帮助。


教授介绍:

Peter J Park,哈佛医学院(HMS)生物医学信息学系计算生物学家,主要研究表观基因组学和癌症基因组学。其实验室的总体目标是使用高通量测序数据探索与疾病过程相关的遗传和表观遗传机制。在对癌症基因组中结构变异的表征过程中,他们完成了基于外显子组和全基因组测序数据识别结构改变的计算方法的开发和应用,揭示了逆转录转置事件、复杂的结构改变、微卫星不稳定性以及大规模染色体扩增/缺失在肿瘤发生中的作用。此外,还为癌症基因组图谱(TCGA)做出了重大贡献。


参考文献:

Cortés-Ciriano, I., Gulhan, D.C., Lee, J.JK.et al.Computationalanalysis of cancer genome sequencing data.Nat Rev Genet(2021).https://doi.org/10.1038/s41576-021-00431-y

你可能感兴趣的:(2021-12-27)