功能注释（1）：蛋白组KEGG注释

Tips：

# 仅供 IEMB-1 用户参考。

# 进入登陆服务器页面后，所有命令可直接使用复制粘贴使用。

# 实测~3M蛋白组数据，含~8,000条蛋白序列，完成KEGG ko注释用了~30 min，仅限深夜登录服务器空载时运行！不要有侥幸心理，杨老师 is watching you！

# 在登陆服务器运行命令之前，一定要先运行top命令看一下服务器负载状态，一定不要在高负载状态下硬跑！服务器很娇贵！

# 不要修改脚本生成文件的文件名，可能会导致脚本无法识别文件的问题。

0. 使用BlastKOALA在线进行KEGG `KO`注释

可以代替下面的第一步，并且库一定是最新的！上传蛋白文件，选择近缘的科即可。分析完毕可以直接跳转到2.2继续进行。

1. 使用`kofamscan`进行KEGG `KO`注释

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


cd /your protein fasta path/

# 以'protein.fasta'文件为例
# 蛋白序列的id应该有一个固定的前缀，没有的话需要自己先加上
# 蛋白序列的id中不要出现'|'字符，否则后面会报错

# 这里使用`sed`命令给序列id加'Prefix'作为前缀进行演示，如果序列id本身就有前缀就不用管了
sed -i 's/>/>Prefix/' protein.fasta

# 使用`nohup`运行脚本
nohup bash /apps/users/andrew/littletools/KEGG/kofamscan.sh protein.fasta &

# 获得'protein.fasta.kegg.mapper'文件

2. 使用Reconstruct Pathway在线版进行PATHWAY注释

2.1 上传蛋白序列

进入网站后，上传protein.fasta.kegg.mapper文件，开始分析。

2.2 保存分析结果

分析完成，自动弹出结果页面，在Pathway标签页下，点击Show matched objects，键盘同时按下Ctrl a全选，将全部内容复制到XX.kegg.map.txt文件，将文件上传至服务器。

3. 使用`kegg_mapper.py`脚本提取`map`号

1
2
3
4
5
6
7


cd /your XX.kegg.map.txt path/

# 以蛋白序列id的前缀为`Prefix`为例
# 运行脚本
python /apps/users/andrew/littletools/KEGG/kegg_mapper.py -i XX.kegg.map.txt -p Prefix

# 获得'XX.kegg.map.txt.map'文件，用来进行后续KEGG富集分析

Contents