2021-12-15

Nat Biotech | 深度数据融合得到超分辨率空间转录组学

原创 huacishu 图灵基因 2021-12-15 09:00

收录于话题#前沿生物大数据分析

撰文:huacishu

IF=54.900

推荐度:⭐⭐⭐⭐⭐

亮点:

1、本研究中作者介绍了一种方法,该方法将空间基因表达数据与来自同一组织切片的组织学图像数据相结合,以推断出更高分辨率的表达图谱;

2、该方法使用深度生成模型来表征微米级解剖特征的转录组,并且可以仅从组织学图像中预测空间基因表达


瑞典皇家理工学院Joakim Lundeberg教授课题组在国际知名期刊Nat Biotechnol在线发表题为“Super-resolved spatial transcriptomics by deep data fusion”的论文。空间转录组学的实验方法是基于分辨率和分子灵敏度的光谱。在光谱的一端,基于原位测序或杂交的方法通常具有更高的分辨率和灵敏度,但对许多基因的研究更具挑战性,限制了它们在探索转录组范围内的相互作用方面的可用性。另一方面,基于poly(dT)探针的原位RNA捕获(ISC)方法同时针对所有多聚腺苷酸转录本,但分辨率和灵敏度较低,限制了它们在研究详细表达模式方面的用途。目前的空间转录组学方法受到低空间分辨率的限制。在这里,作者介绍了一种将空间基因表达数据与来自同一组织切片的组织学图像数据相结合的方法,以推断更高分辨率的表达图谱。利用深层生成模型,该方法表征了微米级解剖特征的转录组,并且可以仅从组织学图像预测空间基因表达。

为了克服现有实验方法的局限性,作者提出了一种空间表达数据的深层生成模型。该方法将ISC数据与高分辨率组织学图像(通常以苏木精和伊红染色的形式)融合,以推断转录组范围的超分辨率表达图谱。超分辨表达图谱量化了原始测量位置内和位置之间的基因表达(图1a)。此外,对测量的数量或结构不作任何假设,从而允许在联合实验中使用来自同一组织的参考ISC切片。从独立组织学图像进行预测(图1b)提出的方法将空间基因表达和组织学图像数据作为潜在组织状态的可观察效应。潜在状态在多个空间分辨率上建模,捕获全局和局部解剖特征。推理由识别神经网络进行,该网络将图像数据映射到潜在状态,允许该方法扩展到任意大的数据集(图1c)。为了证明这个说法,作者构建了由三种不同转录亚型的形状组成的合成表达图谱,并使用这些图谱生成观察图像和组合表达数据(图1d)。该方法将像素分为几乎完全准确的子类型(曲线下的平均面积=1.00)。此外,误差与较高的预测不确定性有关(图1e)。在12个小鼠嗅球组织切片数据集中验证了作者的发现。首先,将相邻的测量位置合并成两组,并预测它们的基因表达差异。选择一个位置的预测表达高于另一个位置的95%可信度的观察结果,并在95%的案例中找到与基本事实的方向对应的关系(Pearson's r=0.82)。与在合成数据中的发现类似,误差与更高的预测不确定性有关。接下来,将推断的表达与来自小鼠脑图谱的原位杂交数据进行比较。总的来说,推断的表达式与参考数据匹配(图1f)。例如,Ntng1在二尖瓣细胞层(MCL)的表达以及Dusp在MCL和颗粒层的表达是紧密复制的。相比之下,ISC数据过于粗糙,无法解析相同的表达模式。总之,这些发现表明,该方法将ISC数据分解为更高分辨率的组件。此外,预测分布的离散度经过了很好的校准,适合于量化预测的不确定性。根据仅作用于表达式数据的基线对预测性能进行基准测试。从小鼠嗅球数据集中删除了50%的空间基因表达测量值,并对缺失的数据进行了插补。所提出的方法在相关性。为了评估该方法从组织学图像预测表达的能力,作者推断了小鼠嗅球数据集中保持部分的转录组。当参考集合中包含更多的部分时,样本性能中的精度更加接近(图1h)。在人类鳞状细胞癌数据集中验证了作者的发现,该数据集由四个间隔150 μm的连续组织切片组成。使用外切面作为参考实验预测中间切面的表达,发现与基本事实(Pearson's r=0.72)基本一致,优于基于基因常数和基于图像的线性回归模型构建的基线。此外,尽管参考数据集的变化有限,但在染色差异上,预测性能是稳定的。

为了评估该方法的稳健性,作者研究了人类小肠的数据集。在所有实验中,保留75%的测量位置进行测试。首先,作者验证预测在重启期间是一致的。结果发现所有基因的预测平均表达载体与测试位置之间的平均相关性为0.98。接下来,通过增加训练位置的偏移量来测试该方法对未对准测量位置的敏感性。在110 μm的偏移量处,测试位置上预测和基本真值表达之间的基因相关中位数减少0.040。与来自人类蛋白质图谱的CDHR参考抗体染色相比,预测广泛再现了表达的上调,当测量值未对齐时,预测仅受到轻微干扰。此外,作者注意到,实际中不太可能出现所研究数据的偏移。最后,通过遮挡部分图像数据来测试该方法对组织学伪影的敏感性。在测试位置上预测和基本真实表达之间的基因相关中位数绝对减少0.018。尽管在被遮挡的图像区域中受到明显干扰,但可见区域仅受到轻微影响。使用所提出的方法研究小鼠嗅球的微米级解剖特征和人类乳腺癌中的差异表达(图2a,b)。首先,分析了嗅球的MCL(图2c),并发现了几个明显上调和下调的基因(图2d)。通过反向变异系数对基因进行排序,发现100个上调的基因中有40个出现在最近一项单细胞RNA测序研究结果中. 然而,20–50 μm宽的MCL在ISC数据中很难分离,ISC数据通常测量100 μm直径区域的表达。在典型的工作流程中,使用保守或自由选择策略,将与MCL重叠的ISC测量与非重叠测量进行比较,最多只能识别19个标记。接下来,研究导管原位癌(DCIS)的空间动力学通过分析肿瘤边缘和内部区域之间的转录组梯度(图2e)并表征其细胞类型组成,从乳腺癌数据集中提取数据。尽管癌细胞支配着DCIS病变的所有部位,但作者观察到一些肿瘤相关基因在肿瘤边缘50 μm范围内上调,这是测量中心到中心距离的一半(图2f)。例如,由C1QA、C1QB和C1QC亚组分组成的补体成分1q已被证明可促进血管生成和肿瘤生长。类似地,CD74是乳腺癌转移性肿瘤生长的已知标志物,并且已被研究作为血癌抗体-药物结合疗法的潜在靶点。CD74表达与肿瘤边缘的接近可能对类似DCIS治疗中CD74表达细胞的可及性具有重要意义。然而,需要进一步的研究来验证这一发现。

总之,作者提出了一个用于空间数据融合的深层生成模型。该方法结合ISC和组织学图像数据,推断转录组范围的超分辨表达图谱。表达式映射解析难以在原始ISC数据中分离的微米级表达式签名。识别和描述这些特征对于描述微小的解剖特征和开发有效的疾病治疗方法至关重要。此外,作者所提出的方法可以使用来自相同组织的参考ISC实验从组织学图像预测空间基因表达,从而提供了一种基于图像的电子空间转录组学(ISST)方法。作者设想未来的工作能够在更大范围内实现ISST,满足培养组织特异性模型的需要。这种模型需要能够标记出分布外的样本,并在跨越广泛解剖条件的数据库上进行训练。在这种情况下,可以利用转移学习从多种技术获取参考数据,包括批量和单细胞RNA测序。ISST可以降低研究成本,解锁组织学数据库中的空间基因表达,或者用作实验数据的质量控制。


教授介绍

Joakim Lundeberg于1993年在KTH皇家理工学院获得博士学位。并于2000年成为KTH皇家理工学院分子生物技术教授。如今,他领导着化学、生物技术和健康学院基因技术系的一个研究小组,该研究小组自2010年以来一直位于斯德哥尔摩生命科学实验室。Joakim Lundeberg的研究小组参与核酸分析的方法开发。近年来,DNA/RNA分析新技术的发展使生命科学研究发生了革命性的变化,Joakim Lundeberg开创了这一领域的先河并做出了独特的贡献。Lundeberg教授小组正在进行的研究包括基因及其在组织中的空间表达,然后将其应用于生命科学的跨学科研究项目,如健康和疾病组织的分子图谱。

参考文献

Bergenstråhle L, He B, Bergenstråhle J, et al. Super-resolved spatialtranscriptomics by deep data fusion. Nat Biotechnol. 2021;10.1038/s41587-021-01075-3.doi:10.1038/s41587-021-01075-3

你可能感兴趣的:(2021-12-15)