06高通量测序-RPKM,FPKM,and TPM

RPKM,FPKM,and TPM

RNA-seq标准

  • 我们过去使用RPKM(Reads Per Kilobase Million)或FPKM(Fragments Per Kilobase Million)

    • 这些均一化的read计数如下:

      • 测序仪深度(Million)

        • 测序越深,就有越多的read比对到基因上。
      • 基因长度(kilobase)

        • 基因越长,就有越多的read比对到基因上。
  • 现在他们想让我们使用TPM——(Transcripts per million)

为了理解TPM、RPKM和FPKM之间的差异,我们将使用一个假想的RNA-seq数据,对一个有4个基因(A、B、C和D),3个重复(Rep1、2和3),通过数学方法进行计算。Rep3的reads更多,基因B(4kb)的长度是基因A(2kb)的两倍,这就解释了基因B总是得到两倍的read对于基因A。

image-20210103110805738.png

RPKM

首先,我们将使用RPKM标准对数据进行均一化。

第一步均一化read深度

我们计算每个Rep的总reads,然后除以10,真正应该除以1,000,000。因为RPKM的M指的就是million,是百万。Rep1总reads除以10的结果为3.5,然后用每个基因的reads除以3.5,得到RPM。

image-20210103112451612.png

第二步均一化基因长度

用RPM除以基因的长度(kb),比如Rep1的基因A,2.86/2=1.43,得到RPKM

image-20210103113215763.png

image-20210103114303477.png

FPKM

RPKM和FPKM 是非常相近的两个术语:

  • RPKM: Reads Per Kilobase Million

    • RPKM是用于单端测序
  • FPKM: Fragments Per Kilobase Million

    • FPKM用于双端测序

在RNA-seq中:

  • 单端测序,一个片段对应一个read

  • 双端测序,一个片段对应两个read,有时只有一端有质量的read。FPKM会跟踪片段,这样有两个reads就不会被计算两次。

image-20210103115707280.png

TPM

TPM类似于RPKM和FPKM,只是操作顺序被切换了。

第一步均一化基因长度

counts值除以对应基因的长度(kb),得到RPK

image-20210103120016571.png

第二步均一化测序深度

计算出Rep总的RPK,然后除以10,真正应该除以1,000,000。因为TPM的M指的就是million,是百万。Rep1总reads除以10的结果为1.5,然后用Rep1每个基因的reads除以1.5,得到TPM。

image-20210103120016571.png

RPKM VS TPM

TPM,RPKM(和FPKM)“纠正了基因长度和测序深度的偏差。但是每一列的和非常不同。在RPKM 中每一个样本RPKM的和是不同的。在TPM 中每一个样本TPM的和是相同的。

image-20210103120632617.png

考虑3个相同大小的饼状图(10)。3.33大小一块,在每个饼中都是一样的,并且总是大于3.32。TPM表明,在Rep1中,定位到基因A的总read多于Rep3。通过TPM我们更容易发现,在每个重复中,比对到哪些基因上的reads更高或更低。

image-20210103121648597.png

使用RPKM,比较总reads的比例会变得更加困难,因为每个Rep的总read数不同(每个饼图大小不同)。一个1.43大小的切片代表不同的馅饼中不同的读read比例。哈!严肃地说,人们之所以使用TPM,是因为这些数字可以清楚地告诉您每个样本中对应的read的比例。而且由于RNA-seq是关于比较read的相对比例,这个指标似乎更合适。


image-20210103121707177.png

你可能感兴趣的:(06高通量测序-RPKM,FPKM,and TPM)