细菌基因组研究,是通过基因组测序和组装,获得细菌全基因组序列,并对基因组开展结构预测,功能注释、比较基因组学及泛基因组研究。依据研究精细程度不同,分为框架图(也称为草图)、完成图(0gap),下面我们主要介绍框架图的分析内容。
基本流程为,建库测序,序列优化,基因组组装,基因及结构预测,功能注释,画图展示。
1、测序序列的质控和拼接
2、组装结果评估:把 reads 比对到组装好的基因组序列上, 通过统计组装序列的 GC 含量和 reads 覆盖深度, 总结基因组的 GC偏向性和重复序列情况及污染情况。
注:横坐标表示 GC 含量,纵坐标表示测序深度
Name |
Value |
Genome Length |
6870226 bp |
Number of scaffold(contig) |
19 |
G+C content |
42.7% |
Num of CDS |
6751 |
CDS num |
6751 |
CDS total length |
6139395 bp |
CDS density |
0.982 genes per kb |
CDS average length |
909. bp |
Intergenetic region length |
730831 bp |
CDS/Genome(coding percentage) |
89.4% |
Intergenetic length/Genome |
10.6% |
GC content in gene region |
43.4% |
GC content in intergenetic region |
36.7% |
基因组信息统计
COG功能分类统计图
KEGG Level2 Gene Count
对于每张KEGG pathway图,标注基因组比对上的基因。
Pathway
这一分类系统以细菌中普遍存在的120个单拷贝蛋白质(bac120)为基础;在对多分组类别消歧后,根据相对演化散度标准化和分级,得到基因组分类数据库(GTDB release95)。将质控后的reads与GTDB数据库进行比对注释物种信息。
Swiss-Prot,是2002年由 UniProt consortium 建立的基因数据库,其特点在注释结果经过实验验证,可靠性较高,可用作其他数据的参考。
10、CAZy注释: CAZy (Carbohydrate-active enzymes,碳水化合物活性酶)数据库是研究碳水化合物酶的专业级数据库,主要涵盖 6 大功能类:糖苷水解酶(Glycoside Hydrolases ,GHs);糖基转移酶(Glycosyl Transferases,GTs);多糖裂合酶(Polysaccharide Lyases,PLs);碳水化合物酯酶(Carbohydrate Esterases,CEs);辅助氧化还原酶(Auxiliary Activities , AAs);碳水化合物结合模块(Carbohydrate-Binding Modules,CBMs)。对每个分类下比对上的基因数进行统计。
毒力因子数据库VFDB 由中国医学科学院研发,被广泛应用于毒力因子基因鉴定。
1、测序碱基准确率是什么意思,具体的计算方法是什么?
碱基测序的质量值Q是准确度(P)的一种格式转换,是为了方便使用一个字符表示非常复杂的准确度,占用最小空间;转换公式为P=1-10^(-Q/10),如Q=30/20/10的准确度分别为99.9%,99%,90%。
2、细菌基因组的组装结果中,N50和N90的具体含义,以及如何计算?
它们是基因组组装中常用的组装指标,要知道是越大越好。大于N50长度的序列占基因组总长的50%,大于N90长度的序列占基因组总长的90%。
具体计算方法:将所有拼接序列按照长度从大到小排列,找到TopNr 序列总长度刚好大于基因组总长度的50%(90%)位置,则该序列的长度定义为N50(N90);该数值反映了基因组50%(90%)以上的区域,都能被该数值以上长度的序列覆盖,同时体现了组装质量对于后续数据分析的质量贡献。
3、在有杂菌污染的情况下,为什么得不到好的组装结果呢?
不同物种会有非常多的同源序列,高度相似序列会对组装软件产生干扰,而软件为保证组装的准确性,只能将可疑的部分切断成不同的碎片序列。
4、如果关注的基因没有被注释出来,是什么原因呢?
5、草图与完成图的区别是什么?
一般细菌基因组草图是指根据二代测序结果拼接而成,中间存在gap的基因组,而与之相对的细菌完成图就是二代测序加上了三代测序,借助三代测序读长长的优势,完全没有gap的基因组。