Tips:

# 仅供 IEMB-1 用户参考。

# 进入登陆服务器页面后,所有命令可直接使用复制粘贴使用。

# 不要修改脚本生成文件的文件名,可能会导致脚本无法识别文件的问题。

1. 使用RepeatModelerRepeatMasker注释基因组重复序列

完成基因组的组装及过滤之后,接下来要进行的就是基因组的注释了。

基因组的注释分为结构注释和功能注释两大部分。先通过结构注释获取基因、蛋白序列,再通过功能注释获取这些基因、蛋白序列所对应的功能。

首先对基因组中的重复结构进行注释,为接下来的分析去除重复序列的干扰。

1
2
3
4
5
6
# 以'contig.fasta'基因组文件为例
ln -s contig.fasta ./

# 以'ciliate'作为中间文件的前缀
# 运行脚本
/apps/users/andrew/littletools/strucanno/assembly_Repeatanno.sh contig.fasta ciliate

脚本运行完毕后工作目录中会产生3个新的文件夹,分别是01.RepeatModeler02.RepeatMasker03.RepeatMasker_soft

注释出所有的重复序列保存在03.RepeatMasker_soft/contig.fasta.tbl文件中。

对重复序列的统计分类结果保存在03.RepeatMasker_soft/contig.fasta.out文件中。

对重复序列的注释结果保存在03.RepeatMasker_soft/contig.fasta.out.gff文件中。

对重复序列进行软屏蔽后的基因组保存在03.RepeatMasker_soft/contig.fasta.masked文件中。

后续的一些分析就可使用软屏蔽后的03.RepeatMasker_soft/contig.fasta.masked来进行了。