评估LLM在细胞数据上的实用性(4)-插补,模拟生成,涌现

目录

  • 定义
    • 插补
    • 模拟
    • 涌现能力
  • 细胞数据中的生成与涌现
    • 插补
    • 模拟生成
    • 涌现

定义

插补

插补是一项与缺失数据相关的填充任务。一般来说,插补有两个目标:

  • 对scRNA-seq数据进行插补,以减少数据噪声,并用具有生物学意义的值填充技术导致的零值。
  • 由于看不见或无法测量的基因,对空间转录组数据进行插补。当前的空间插补方法在不同的数据集上没有表现出很强的性能(Optimizing xenium in situ data utility by quality assessment and best practice analysis workflows)。

使用scLLM,我们可以使用零样本学习来估计看不见的基因,也可以基于具有更多基因的reference scRNA-seq来微调模型以进行估计。scEval将此任务视为矩阵填补问题。在研究中,scEval使用了来自小鼠组织的两个公共数据集来分析scLLM的性能。一个数据集是scRNA-seq数据集,另一个是空间转录组数据集。对于scRNA-seq数据集的插补,使用scLLM解码器的输出作为插补结果。为了评估该任务,使用批次整合中的生物保护得分来比较插补前后的数据。

对于空间转录组数据的插补,作者考虑了两种不同的设置来进行插补。 第一个设置是使用 scRNA-seq 进行微调并基于空间转录组数据进行推理。第二种设置是使用零样本学习框架直接基于空间转录组数据进行推理。考虑使用已知的原始基因表达和已知的估算基因表达之间的相关性作为衡量标准。

metrics

  • Average bio:根据NMI和ARI计算
  • 相关性:基于已知常见基因的原始数据和估算数据之间的平均相关性来计算相关性得分。这种度量的想法来自于这样一种假设,即空间插补的目标是预测缺失或未测量基因的表达,同时保持已知基因表达水平的分布。
  • Significance proportion:显著性比例意味着我们计算相关性p值小于阈值的基因的比例,在评估中,阈值为0.005。该比例可以用作评估两个配对数据之间相似性的度量。

scRNA-seq与空间转录组的区别

  • scRNA-seq是单细胞分辨率的,并且测量的基因数量是很多的
  • 空间转录组中每个样本不是单个细胞,而是一个spot,所以才有整合空间转录组和scRNA-seq的特定方法,因为一个spot是包含多个细胞的,整合两者才能在空间下看到单个细胞的情况,并且空间转录组往往测量的基因数比较少,比如DLPFC数据集,spot一共有47329个,但是基因数量为2356个,所以对空间转录组而言,更需要预测的是其他未知基因的表达

模拟

scRNA-seq模拟是一项数据生成任务。利用scGPT的生成预训练过程,可以基于真实数据集生成新的基因表达。由于scRNA-seq数据模拟的一个普遍问题是模拟数据集和真实数据集之间的差异,因此优选从真实数据集直接生成。通过排列不同的mask基因或筛选不同的种子,就能生成新的模拟scRNA-seq数据集。模拟数据集的质量可以通过将其与当前模拟方法的输出进行比较来评估。scEval将此任务视为数据生成问题。

作者使用了与批次整合任务相同的指标进行评估。通过改变随机种子,可以从单个真实数据集产生不同的重建结果。此功能使我们能够创建模拟的单细胞数据集。值得注意的是,这些生成的数据集保留了与其输入对应物相同的基因集。生成数据的批次效应取决于所采样的真实数据。

涌现能力

在LLM中,由于参数数量众多,有研究认为LLM可以管理尚未明确训练过的特定任务,这一属性被称为“涌现”。例如,GPT-4可以解决一些SAT问题,尽管它还没有在这种特定数据集上进行训练。假设scLLM也可能具有这种能力。为了测试这一点,scEval设计了不同的场景,类似于评估scLLM的涌现能力实例。这些场景包括:1.跨物种细胞类型注释,2.空间转录组数据分析。

细胞数据中的生成与涌现

插补

对于这项任务,我们考虑了scGPT和Tangram,见 评估LLM在细胞数据上的实用性(1)-基本概述。scRNA-seq的插补结果如图5a所示,这表明scGPT对scRNA-seq数据的插补功能在原始测序数据中引入了更多的噪声,表明解码器输出的不可靠性。根据图5b,与SOTA空间插补方法Tangram相比,scGPT在空间转录组数据插补任务中表现良好。基于相关性和显著性比例的评估,scGPT的插补结果优于Tangram的插补结果。此外,基于零样本学习版本的得分甚至比使用scRNA-seq数据训练版本更好。然而,根据 Avg bio 评分评估的结果,原始数据的评分更好。这可能是由空间聚类标签的来源引起的,这些标签是由基因表达聚类而非专家注释产生的,这种方法可能会在插补前后引入偏差。

评估LLM在细胞数据上的实用性(4)-插补,模拟生成,涌现_第1张图片

  • 图5a:在scRNA-seq插补任务中,通过scGPT对原始数据和插补数据之间的Avg bio评分进行比较。

评估LLM在细胞数据上的实用性(4)-插补,模拟生成,涌现_第2张图片

  • 图5b:空间转录组插补任务中Tangram、scGPT和scGPT(零样本)的比较。

模拟生成

scEval为此任务考虑了scGPT和scDesign3。作者将scGPT的输出与scDesign3的输出进行了比较。如图5c所示,scDesign3在模拟任务的两个条件下都优于scGPT。特别是,与scGPT相比,scDesign3在生成没有批次效应的模拟数据方面具有更明显的优势。scDesign3的基因-基因相关性也与原始数据的基因-基因相关性更相似。因此,scLLM的模拟任务值得改进。
评估LLM在细胞数据上的实用性(4)-插补,模拟生成,涌现_第3张图片

  • 图5c:模拟的scDesign3和scGPT的平均生物评分的比较。

评估LLM在细胞数据上的实用性(4)-插补,模拟生成,涌现_第4张图片

  • 图5d:来自原始HumanPBMC数据集的基因-基因相关性热图。选择了前100个HVG子集。

评估LLM在细胞数据上的实用性(4)-插补,模拟生成,涌现_第5张图片

  • 图5e:比较不同模拟方法。热图表示基于HumanPBMC数据集的前100个HVG(用于原始和scDesign3)和另一组前100个HVG(用于scGPT)。相关性表示基于HumanPBMC数据集的原始数据的基因相关性和模拟数据的基因相关之间的Pearson相关性。

涌现

scEval探索了scLLM的涌现能力,包括scBERT、Geneformer和scGPT。考虑了三个场景来研究涌现能力:跨数据细胞类型预测、跨物种分析和空间转录组学分析。

跨物种细胞类型注释(Cross-species Cell-type Annotation):

  • 实验设置:利用scLLMs进行跨物种的细胞类型注释任务。
  • 验证方式:评估模型是否能准确地注释不同物种的细胞类型,这些任务超出了模型的初始训练数据。
  • 结论:scGPT和Geneformer在跨数据细胞类型注释任务中具有涌现能力。

空间转录组数据分析(Spatial Transcriptomic Data Analysis):

  • 实验设置:由于预训练没有用过空间转录组数据,因此可以使用scLLMs对空间转录组数据进行分析,观察模型是否能捕获空间表达模式的细微差异。
  • 验证方式:检查模型在整合空间数据批次方面的表现。
  • 结论:scLLM在空间转录组数据整合方面具有涌现能力。

你可能感兴趣的:(单细胞多组学分析,人工智能,算法,机器学习)