Tips:

# 仅供 IEMB-1 用户参考。

# 进入登陆服务器页面后,所有命令可直接使用复制粘贴使用。

# 不要修改脚本生成文件的文件名,可能会导致脚本无法识别文件的问题。

1. 使用redundans去除基因组冗余序列

redundans更适用于二代测序数据组装的基因组,如果是三代测序数据组装的基因组,可以尝试使用purge_dups去除冗余序列。

1
2
3
4
5
6
# 以'contigs.fasta'基因组文件为例
ln -s yourgenome.fasta ./

# 设置判定为序列的阈值,以相似度阈值为90%,序列重叠区域比例的阈值为85%为例
# 运行脚本
/apps/users/andrew/littletools/assembly_redundans.sh contigs.fasta 0.9 0.85

脚本运行完毕,结果储存在identity0.9_overlap0.85文件夹中,可以选取scaffolds.reduced.fa做为去除冗余后的基因组版本。

做完这一步,常规的基因组过滤步骤就完成了。可以将这一版的基因组作为最终版本,再次进行基因组评估,接下来就可以开始基因组的注释分析了。