Tips:

# 仅供 IEMB-1 用户参考。

# 进入登陆服务器页面后,所有命令可直接使用复制粘贴使用。

# 实测~3M蛋白组数据,含~8,000条蛋白序列,完成KEGG ko注释用了~30 min,仅限深夜登录服务器空载时运行!不要有侥幸心理,杨老师 is watching you!

# 在登陆服务器运行命令之前,一定要先运行top命令看一下服务器负载状态,一定不要在高负载状态下硬跑!服务器很

# 不要修改脚本生成文件的文件名,可能会导致脚本无法识别文件的问题。

0. 使用BlastKOALA在线进行KEGG KO注释

可以代替下面的第一步,并且库一定是最新的!上传蛋白文件,选择近缘的科即可。分析完毕可以直接跳转到2.2继续进行。

1. 使用kofamscan进行KEGG KO注释

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
cd /your protein fasta path/

# 以'protein.fasta'文件为例
# 蛋白序列的id应该有一个固定的前缀,没有的话需要自己先加上
# 蛋白序列的id中不要出现'|'字符,否则后面会报错

# 这里使用`sed`命令给序列id加'Prefix'作为前缀进行演示,如果序列id本身就有前缀就不用管了
sed -i 's/>/>Prefix/' protein.fasta

# 使用`nohup`运行脚本
nohup bash /apps/users/andrew/littletools/KEGG/kofamscan.sh protein.fasta &

# 获得'protein.fasta.kegg.mapper'文件

2. 使用Reconstruct Pathway在线版进行PATHWAY注释

2.1 上传蛋白序列

进入网站后,上传protein.fasta.kegg.mapper文件,开始分析。

2.2 保存分析结果

分析完成,自动弹出结果页面,在Pathway标签页下,点击Show matched objects,键盘同时按下Ctrl a全选,将全部内容复制到XX.kegg.map.txt文件,将文件上传至服务器。

3. 使用kegg_mapper.py脚本提取map

1
2
3
4
5
6
7
cd /your XX.kegg.map.txt path/

# 以蛋白序列id的前缀为`Prefix`为例
# 运行脚本
python /apps/users/andrew/littletools/KEGG/kegg_mapper.py -i XX.kegg.map.txt -p Prefix

# 获得'XX.kegg.map.txt.map'文件,用来进行后续KEGG富集分析