06高通量测序-RPKM,FPKM,and TPM

RPKM,FPKM,and TPM

RNA-seq标准

我们过去使用RPKM(Reads Per Kilobase Million)或FPKM(Fragments Per Kilobase Million)
- 这些均一化的read计数如下:
  - 测序仪深度(Million)
    - 测序越深，就有越多的read比对到基因上。
  - 基因长度(kilobase)
    - 基因越长，就有越多的read比对到基因上。
现在他们想让我们使用TPM——(Transcripts per million)

为了理解TPM、RPKM和FPKM之间的差异，我们将使用一个假想的RNA-seq数据，对一个有4个基因(A、B、C和D),3个重复(Rep1、2和3)，通过数学方法进行计算。Rep3的reads更多，基因B(4kb)的长度是基因A(2kb)的两倍，这就解释了基因B总是得到两倍的read对于基因A。

image-20210103110805738.png

RPKM

首先，我们将使用RPKM标准对数据进行均一化。

第一步均一化read深度

我们计算每个Rep的总reads，然后除以10，真正应该除以1，000，000。因为RPKM的M指的就是million，是百万。Rep1总reads除以10的结果为3.5，然后用每个基因的reads除以3.5，得到RPM。

image-20210103112451612.png

第二步均一化基因长度

用RPM除以基因的长度(kb)，比如Rep1的基因A，2.86/2=1.43，得到RPKM

image-20210103113215763.png

image-20210103114303477.png

FPKM

RPKM和FPKM 是非常相近的两个术语：

RPKM: Reads Per Kilobase Million
- RPKM是用于单端测序
FPKM: Fragments Per Kilobase Million
- FPKM用于双端测序

在RNA-seq中：

单端测序，一个片段对应一个read
双端测序，一个片段对应两个read，有时只有一端有质量的read。FPKM会跟踪片段，这样有两个reads就不会被计算两次。

image-20210103115707280.png

TPM

TPM类似于RPKM和FPKM，只是操作顺序被切换了。

第一步均一化基因长度

counts值除以对应基因的长度(kb),得到RPK

image-20210103120016571.png

第二步均一化测序深度

计算出Rep总的RPK,然后除以10，真正应该除以1，000，000。因为TPM的M指的就是million，是百万。Rep1总reads除以10的结果为1.5，然后用Rep1每个基因的reads除以1.5，得到TPM。

image-20210103120016571.png

RPKM VS TPM

TPM,RPKM（和FPKM）“纠正了基因长度和测序深度的偏差。但是每一列的和非常不同。在RPKM 中每一个样本RPKM的和是不同的。在TPM 中每一个样本TPM的和是相同的。

image-20210103120632617.png

考虑3个相同大小的饼状图(10)。3.33大小一块,在每个饼中都是一样的，并且总是大于3.32。TPM表明，在Rep1中，定位到基因A的总read多于Rep3。通过TPM我们更容易发现，在每个重复中，比对到哪些基因上的reads更高或更低。

image-20210103121648597.png

使用RPKM，比较总reads的比例会变得更加困难，因为每个Rep的总read数不同(每个饼图大小不同)。一个1.43大小的切片代表不同的馅饼中不同的读read比例。哈!严肃地说，人们之所以使用TPM，是因为这些数字可以清楚地告诉您每个样本中对应的read的比例。而且由于RNA-seq是关于比较read的相对比例，这个指标似乎更合适。

image-20210103121707177.png