2021-09-24 qiime2 DADA2 去噪、序列质控和生成特征表

文字转载

DADA2是用于检测和校正(如果有可能的话)Illumina扩增序列数据的工作流程。正如在q2-dada2插件中实现的,这个质量控制过程将过滤掉在测序数据中鉴定的任何phiX序列(通常存在于标记基因Illumina测序数据中,用于提高扩增子测序质量),并同时过滤嵌合序列。

dada2 denoise-single方法需要两个用于质量过滤的参数:--p-trim-left m,它去除每个序列的前m个碱基(如引物、标签序列barcode);--p-trunc-len n,它在位置n截断每个序列。这允许用户去除序列的低质量区域、引物或标签序列等。为了确定要为这两个参数传递什么值,你应该查看上面由qiime demux summarize生成的demux.qzv文件中的交互质量图选项卡。

--p-trim-left 截取左端低质量序列,我们看上图中箱线图,左端质量都很高,无低质量区,设置为0;

--p-trunc-len 序列截取长度,也是为了去除右端低质量序列,我们看到大于120以后,质量下降极大,甚至中位数都下降至20以下,需要全部去除,综合考虑决定设置为120。

单端序列去噪, 输入样本拆分后结果;去除左端 0 bp (--p-trim-left,有时用于切除低质量序列、barocde或引物),序列切成 120 bp 长(--p-trunc-len);生成代表序列、特征表和去噪过程统计。

下面的步骤计算量较大,有34个样本,26万条序列,计算大约消耗10分钟。

time qiime dada2 denoise-single \

--i-demultiplexed-seqs demux.qza \

--p-trim-left 0 \

--p-trunc-len 120 \

--o-representative-sequences rep-seqs-dada2.qza \

--o-table table-dada2.qza \

--o-denoising-stats stats-dada2.qza


生成三个输出文件:

stats-dada2.qza: dada2计算统计结果。查看 | 下载

table-dada2.qza: 特征表。查看 | 下载

rep-seqs-dada2.qza: 代表序列。 查看 | 下载


对特征表统计进行进行可视化

qiime metadata tabulate \

--m-input-file stats-dada2.qza\

--o-visualization stats-dada2.qzv


可视化
代码

你可能感兴趣的:(2021-09-24 qiime2 DADA2 去噪、序列质控和生成特征表)