Tips:

# 仅供 IEMB-1 用户参考。

# 进入登陆服务器页面后,所有命令可直接使用复制粘贴使用。

# 默认已通过基因组组装及过滤(3):结合端粒信息统计GCdepth基因组评估(2):已有Depth文件,结合端粒信息统计GCdepth获得了当前基因组的GCdepth统计图。

# 不要修改脚本生成文件的文件名,可能会导致脚本无法识别文件的问题。

1. 结合端粒信息,过滤基因组

以下过滤仅针对没有端粒的contigs进行。依次根据线粒体序列比对、细菌序列比对(如果当前工作目录中提供了基因组组装及过滤(2):Gapclose、去除短片段及细菌污染产生的XX.gt500.blastn_111Gbacteria.tab可以自动检测到,并省略细菌比对步骤)、设定的GCdepth cutoff值对基因组进行过滤。

GCdepth cutoff值的设定,可以根据基因组组装及过滤(3):结合端粒信息统计GCdepth基因组评估(2):已有Depth文件,结合端粒信息统计GCdepth获得的当前基因组的GCdepth统计图辅助确定。

1.1 将上一步基因组组装及过滤(3):结合端粒信息统计GCdepth基因组评估(2):已有Depth文件,结合端粒信息统计GCdepth产生的XX.GCdepth.txt文件软连接到当前工作目录
1
ln -s your.GCdepth.txt ./
1.2 将之前基因组组装及过滤(3):结合端粒信息统计GCdepth产生的XX.depth.txt文件软连接到当前工作目录
1
ln -s your.depth.txt ./
1.3 可选步骤,将之前基因组组装及过滤(2):Gapclose、去除短片段及细菌污染产生的XX.blastn_111Gbacteria.tab文件软连接到当前工作目录,建议执行,省去重复比对
1
ln -s your.blastn_111Gbacteria.tab ./
1.4 进行基因组过滤,并重新绘制过滤后的基因组的GCdepth统计图
1
2
3
4
5
6
7
8
9
# 以基因组文件'contig.fasta'为例
# 设置'GC1'参数,将GC含量高于'GC1'的无端粒contigs全部删除,以45为例
# 设置'depth1'参数,将depth低于'depth1'的无端粒contigs全部删除,以5为例
# 设置'GC2'和'depth2'参数,将同时满足depth低于'depth2'和GC含量高于'GC2'两个条件的无端粒contigs全部删除,'GC2'的值可以和'GC1'相同,'depth2'的值也可以和'depth1'相同,'GC2'以40为例,'depth2'以20为例
# 以5'端的端粒结构为CCCCAAAA,3'端端粒结构为TTTTGGGG为例
# 运行脚本
/apps/users/andrew/littletools/assembly_GCdep_BacMito_filt.sh contig.fasta your.GCdepth.txt 45 5 40 20 your.depth.txt CCCCAAAA TTTTGGGG

# 获得过滤后的基因组文件,及该版本基因组对应的5幅'png'格式的GCdepth组合散点图,下载到本地查看