2021-04-21 使用Trimmomatic过滤Fastq文件

参考https://zhuanlan.zhihu.com/p/99929230

下载软件并解压

## 下载Trimmomatic
wget -c http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.39.zip
## 解压
unzip Trimmomatic-0.39.zip
## 进入目录
cd Trimmomatic-0.39

软件参数

Usage: 
java -jar trimmomatic-0.39.jar 
       PE [-version] [-threads ] [-phred33|-phred64] [-trimlog ] [-summary ] [-quiet] [-validatePairs] [-basein  |  ] [-baseout  |    ] ...
   or: 
       SE [-version] [-threads ] [-phred33|-phred64] [-trimlog ] [-summary ] [-quiet]   ...
   or: 
       -version

参数介绍

PE:过滤双端测序数据(如果数据是单端测序的,则用SE)。

phred33:Fastq文件的质量值格式为phred33,一般二代测序数据的格式基本都是phred33,如果不清楚自己数据格式的话可以咨询测序公司。

trimlog:设置日志文件。

threads:设置线程数。

seq*.fq.gz:需要过滤的Fastq文件。

seq*.clean.fq.gz:过滤后的Fastq文件。

ILLUMINACLIP: ./adapters/TruSeq3-PE.fa指去除illumina测序平台下的TruSeq3接头序列,具体使用哪个接头序列可以咨询测序公司。

接头序列后跟的3个数字(2:30:10)分别代表比对时允许的最大错配数,两条reads与接头序列的匹配率和单条reads与接头的匹配率。2:30:10即表示,在比对接头序列时允许有两个位置的碱基发生错配,双端测序的两条reads与接头序列匹配率超过30%的话,就会被切除掉,单条reads如果与接头序列的匹配率超过10%,也会被切除掉。

SLIDINGWINDOW:5:20表示以5bp为窗口进行滑窗统计,切除碱基平均质量低于20的窗口及之后的序列。

LEADING:5表示切除reads 5’端质量值低于5的碱基,直到某一个碱基的质量值大于5。

TRAILING:5表示切除reads 3’端质量值低于5的碱基,直到某一个碱基的质量值大于5。

MINLEN:50表示去除过滤后长度低于50的reads。

除了这些参数外,如果我们想要切除reads开头的碱基,可以使用HEADCROP 参数。

你可能感兴趣的:(2021-04-21 使用Trimmomatic过滤Fastq文件)