2020-09-29 TOOLs:高通量测序数据下载之aspera和SRA Toolkit

来源:https://www.jianshu.com/p/da75f0753178

高通量数据库的数据,下载方法有三种:

  1. 常规下载(wget,迅雷、IDM)
  2. aspera
  3. SRA Toolkit 的prefetch
    wget下载数据速度很慢,比较容易断。
    wget -c 下载地址
    保持断点下载

下载数据库

优先选择 快速下载fq格式的数据,EBI数据库下载。
从EBI数据库直接获取到aspera的下载代码,复制到本地服务器,可以直接运行。

cd ~/wes_cancer/project/1.raw_fq
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh [email protected]:vol1/fastq/SRR318/008/SRR3182418/SRR3182418_2.fastq.gz . 
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh [email protected]:vol1/fastq/SRR318/003/SRR3182423/SRR3182423_1.fastq.gz . 

注意:上述是apera的下载格式,最后面的.代表保存的路径是本目录,一定不能省略,不然会报错。
网络有时候会提示SSH或者UDP错误,可能是服务器的33001端口没有开,打开这个端口即可。
不推荐 下载原始的SRA格式,NCBI数据库
在NCBI数据库会获取到Accession List里面是SRR的列表。
使用prefetch下载,因为ascp下载NCBI的数据时,会报ssh或udp错误。

##单行手动下载
prefetch SRR3182423

##批量自动化下载
cat SRR_Acc_List.txt | while read id
do
    prefetch ${id} -O  ./
done

数据格式

SRA数据格式,是NCBI数据库的格式,我们下载之后,需要自己手动转换成fq格式。
SRA的数据是每一个SRR数据,是一个文件夹。

3人点赞

tools

作者:wo_monic
链接:https://www.jianshu.com/p/da75f0753178
来源:
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

你可能感兴趣的:(2020-09-29 TOOLs:高通量测序数据下载之aspera和SRA Toolkit)