基因组结构注释(1):重复序列注释
Contents
Tips:
# 仅供 IEMB-1 用户参考。
# 进入登陆服务器页面后,所有命令可直接使用复制粘贴使用。
# 不要修改脚本生成文件的文件名,可能会导致脚本无法识别文件的问题。
1. 使用RepeatModeler和RepeatMasker注释基因组重复序列
完成基因组的组装及过滤之后,接下来要进行的就是基因组的注释了。
基因组的注释分为结构注释和功能注释两大部分。先通过结构注释获取基因、蛋白序列,再通过功能注释获取这些基因、蛋白序列所对应的功能。
首先对基因组中的重复结构进行注释,为接下来的分析去除重复序列的干扰。
|
|
脚本运行完毕后工作目录中会产生3个新的文件夹,分别是01.RepeatModeler,02.RepeatMasker,03.RepeatMasker_soft。
注释出所有的重复序列保存在03.RepeatMasker_soft/contig.fasta.tbl文件中。
对重复序列的统计分类结果保存在03.RepeatMasker_soft/contig.fasta.out文件中。
对重复序列的注释结果保存在03.RepeatMasker_soft/contig.fasta.out.gff文件中。
对重复序列进行软屏蔽后的基因组保存在03.RepeatMasker_soft/contig.fasta.masked文件中。
后续的一些分析就可使用软屏蔽后的03.RepeatMasker_soft/contig.fasta.masked来进行了。
Author Li Chao
LastMod 2021-07-05