生信绘图:在线绘制 序列 Logo 图

本文介绍通过 WebLogo网站 在线绘制 序列 Logo 图(序列分析图)。

网站链接:WebLogo 3 - About (threeplusone.com)

1 序列 Logo 图

序列 Logo 是一种常用于可视化 DNA、RNA 或氨基酸序列中保守性和模式的图形化方法。它是由生物信息学领域中的生物学家 Tom Schneider 和 R. Michael Stephens 在1990年首次引入的。序列 Logo 通过显示序列中每个位置上不同碱基或氨基酸的高度,反映了在该位置上的出现频率,以及该位置上保守性的程度。


序列 Logo 图的主要特点和解释:

1.高度表示频率:每个 Logo 图的垂直高度表示相应位置上碱基或氨基酸的出现频率。更高的高度表示该位置上的碱基或氨基酸更为普遍。

2.Y轴表示信息量:Logo 图的 Y轴通常表示信息量(information content),用于衡量在每个位置上的碱基或氨基酸的变异性。信息量的单位通常是比特(bits)。信息量越高,表示该位置上的序列越保守,变异性越小。

3.X轴表示序列位置:X轴表示序列的位置,从左到右表示序列的从头到尾的顺序。Logo 图中的每个位置都有相应的碱基或氨基酸堆叠,堆叠的高度反映了在该位置上不同碱基或氨基酸的频率。

4.颜色编码:Logo 图中通常使用颜色编码来表示碱基或氨基酸的不同种类。不同的颜色对应不同的碱基或氨基酸。


通过观察 序列 Logo 图,研究者可以直观地了解序列中的模式和保守性。在 Logo 图中,高度较高的位置表示在该位置上具有更高的保守性,即更多的序列具有相同的碱基或氨基酸。这对于识别基因结构、蛋白质结构域和其他生物序列中的功能元素非常有用。Logo 图也常用于分析多个序列的比较,以了解它们之间的相似性和差异性。

2 准备数据

不同于传统的数据类型,序列 Logo 图的绘制需要序列文件(即fasta或fastq格式的文件);在绘图之前,我们需对收集好的序列进行比对(这里我用了MEGA 7进行序列比对)

生信绘图:在线绘制 序列 Logo 图_第1张图片

比对完成后,保存为fasta后缀文件。

3 在线绘图

在 WebLogo网站上,上传fasta格式文件,选择参数:

生信绘图:在线绘制 序列 Logo 图_第2张图片

这里序列类型(Sequence type)选择:protein;

因为我想计算不同位置上氨基酸的构成比,所以Y轴的单位(Units)选择:probability;

此外,可以自定义 X/Y轴的标签名;

颜色编码可以根据目的选择:比如疏水性(hydrophobicity)、电荷(charge)和化学性质(chemistry)等。

生信绘图:在线绘制 序列 Logo 图_第3张图片

生成序列 Logo 图:

Auto

生信绘图:在线绘制 序列 Logo 图_第4张图片

Classic

生信绘图:在线绘制 序列 Logo 图_第5张图片

Custom

生信绘图:在线绘制 序列 Logo 图_第6张图片

Chemistry

生信绘图:在线绘制 序列 Logo 图_第7张图片

Bits

生信绘图:在线绘制 序列 Logo 图_第8张图片

4 其他方法

除了在线绘图,序列 Logo 还可以使用R包:motifStack或ggseqlogo 绘制:

library(motifStack)
pcm <- read.table(file.path(find.package("motifStack"), 
                            "extdata", "bin_SOLEXA.pcm"))
pcm <- pcm[,3:ncol(pcm)]
rownames(pcm) <- c("A","C","G","T")
motif <- new("pcm", mat=as.matrix(pcm), name="bin_SOLEXA")
##pfm object
#motif <- pcm2pfm(pcm)
#motif <- new("pfm", mat=motif, name="bin_SOLEXA")
plot(motif)

生信绘图:在线绘制 序列 Logo 图_第9张图片

#plot the logo with same height
plot(motif, ic.scale=FALSE, ylab="probability")

生信绘图:在线绘制 序列 Logo 图_第10张图片

具体方法见:motifStack Vignette • motifStack (jianhong.github.io)

你可能感兴趣的:(统计绘图,生物信息学,R,学习方法)