基因组组装及过滤（5）：二代数据组装基因组去冗余

Tips：

# 仅供 IEMB-1 用户参考。

# 进入登陆服务器页面后，所有命令可直接使用复制粘贴使用。

# 不要修改脚本生成文件的文件名，可能会导致脚本无法识别文件的问题。

1. 使用`redundans`去除基因组冗余序列

redundans更适用于二代测序数据组装的基因组，如果是三代测序数据组装的基因组，可以尝试使用purge_dups去除冗余序列。

1
2
3
4
5
6


# 以'contigs.fasta'基因组文件为例
ln -s yourgenome.fasta ./

# 设置判定为序列的阈值，以相似度阈值为90%，序列重叠区域比例的阈值为85%为例
# 运行脚本
/apps/users/andrew/littletools/assembly_redundans.sh contigs.fasta 0.9 0.85

脚本运行完毕，结果储存在identity0.9_overlap0.85文件夹中，可以选取scaffolds.reduced.fa做为去除冗余后的基因组版本。

做完这一步，常规的基因组过滤步骤就完成了。可以将这一版的基因组作为最终版本，再次进行基因组评估，接下来就可以开始基因组的注释分析了。

Contents

Tips：

1. 使用redundans去除基因组冗余序列

1. 使用`redundans`去除基因组冗余序列