单细胞数据科学中的里程碑与检查点

我们曾经在一节公开课里面提到过单细胞数据科学的几个主特点:

  • 继承了很多Bulk的分析方法
  • 商业开源,容易上手
  • 开发速度快
  • 教程文档丰富
  • 数据分析过程非线性

基于以上特点,我们发现单细胞数据科学的学习曲线往往不是S上升形的,而是快速上升形成单峰(在降维聚类那)而后略有下降再缓慢上升的过程。

Phase1:以好奇冲动为主要特征。单细胞数据科学比较火(Gui),做起来倍有面儿,而且发现很多分析点很容易就跑通了(商业开源)。拿到一张和CNS结构类似的图谱,很是开心。每天也充满干劲,学习的动力也足。这个看文献跑教程的快感大概持续一个月。

Phase2:以迷茫依赖为主要特征。一般做完了降维聚类以及轨迹推断(探索性数据分析)之后,一些朋友可能做完了他们所能想到的所有单细胞分析点之后,迷茫情绪开始弥漫开来:该做的分析我都做了,但还是没有找到那个点。我聚成了十八个类,也都做了细胞类型注释/轨迹推断/富集分析/转录因子调控,但依然不是一个完整的故事。于是期望有一个大佬来在关键的地方点一下,因为没有这一点的话,之前的数据分析不过是在堆砌工具。其实每种工具只是提供了一个数据视角,透过这个视角看能不能发现什么。故事的结局往往是:在某个夜深人静的午夜,透过这么多侧面,灵感一现,狠下心来敲定故事的落脚点。这个过程不好评估。

Phase3:经过了Phase1/Phase2的锻炼,这个故事既有了骨架(工具),也有了灵魂(落脚点),也许之前的质控降维聚类都要重新做(如cellranger做的分析,测序公司做的),好处是这些工具和教程都会了,很快就可以在技术上实现。站在这个谷底回望来时路,其实之前做的工作不能算作研究,只是在学习工具的使用和背景知识而已,而Phase3这里我们具备了研究的能力和那个点。这时候研究才刚刚开始:再次审视数据,验证实验等等。

Phase4:这是少数人能进入的领地。这一阶段的高人往往开始关注比工具的使用和故事的结构更为宏观的主题,如引领行业方向,算法的开发等。

那么我们说的单细胞数据科学发生在哪个阶段呢:Phase3。

在Phase3之前不过是学习如何做研究,也就是为进入单细胞数据科学做数据/技能/背景方面的准备工作。我们先看看数据科学的一般流程是怎样的,在《R语言数据科学》中作者为我们勾勒出数据科学的一般流程:

这个流程图也刚好对应着单细胞数据科学过程的里程碑和检查点事件。首先,我们为什么需要里程碑思维?是因为这个可以有序地推进我们的工作,知道哪一步到哪了,在那里需要注意什么。有了里程碑,也可以避免反复的工作,不必担心上一步做的合适不合适。

里程碑事件一:数据导入。这个看起来很简单,但是依然有些需要注意的事项。如果能够顺利地导入数据,说明已经具备了基本的数据分析能力。在单细胞数据分析过程中,数据的导入除了直接读矩阵之外,每每要调用不同的分析工具也需要进行数据格式的转化。数据转化时尽量保证行和列都不要有全零的情况,也就时每次subset的时候需要注意这个。这时候还应该把数据质控做好。

里程碑二:数据整理。数据整理在单细胞数据分析中往往对应数据整合与批次处理。要避免的一个想法是:拿到数据就去批次,应该先用merge的方式在没有任何数据矫正之前查看数据的状态,来判断是否需要去批次(或其他处理)。原则是:不要处理未知的变量,因为你不知道自己去除的是什么。这时候应该确定图谱的基本结构。确定是整合还是merge,是tsne还是umap。

里程碑三:聚类分析。聚类其实属于数据科学流程中的模型,在单细胞数据分析中基本的分析单位是细胞群,请注意,而不是单个细胞。可以把聚类看作寻找数据中潜在模式的一种手段,可以多次利用聚类手段,实现不同目的。聚类可以结合clustree聚成不同的数量的类别,根据类别之间的关系来确定聚类数。这里一般有两个声音:一个是说先聚成大类,在大类中分出小类;一个说一步到位,先尽可能地多聚几类,后面根据marker合并。这两个策略都是可以的,工程上来说,后一种有更高的效率。这里应该确定数据集的聚类个数,各个亚群在不同样本来源的比例。

里程碑四:可视化。一篇文章也许只有fig7,而我们可能需要绘制几百张图。可视化不仅是如何画的问题,更多地是show什么的问题。懂忽略什么和懂得重视什么一样重要。可视化不仅是绘图技巧问题,更多地是生物学问题论证的过程。这里我劝各位多停留几分钟,用多种形式可视化(哪怕是同一个问题),以不同的形式展现数据,如果发现不了想讲的问题,就是一直画下去,直到画出感兴趣的点为止。

里程碑五:报告你的数据。在画了两三百页PPT的图之后,终于找到了一个主线可以把它们传成一个故事了。这时候往往显示出可重复分析是多麽的重要了,有可能你会发现,由于代码或者软件版本(环境)的不同之前的图重复不出来了。悲夫。一切准备停当,当我们开始把自己的CNS落实到纸上的时候,单细胞数据分析并没有停止,而是变得更加微妙,不像一开始那样大刀阔斧了。第一步是报告数据给你自己,然后是把数据报告给读者。

里程碑六:引入第三方数据。是指想用已发表的数据或数据库数据来丰富自己的故事,在这之前请确定自己的故事已经掌握的很好了,而不是还在找点的过程中。因为第三方数据来源不均一,而且带来的结论很可能和手里重要的数据不一致(不管哪方面的)。除非这个第三方数据是您本来就很熟悉的,否则如无必要,勿增实体,虽然这几乎已经成为趋势了。

其实本文在讨论的是一个数据科学项目的生命周期问题,单细胞数据分析的终点在哪,文章见刊吗?

你可能感兴趣的:(单细胞数据科学中的里程碑与检查点)