参考教程:
https://zhuanlan.zhihu.com/p/166080842
https://www.jianshu.com/p/146093c91e2b
https://blog.csdn.net/weixin_43569478/article/details/83744242
https://www.jianshu.com/p/e133ab3169fa
Tips:
# 仅供 IEMB-1 用户参考。
# 进入登陆服务器页面后,所有命令可直接使用复制粘贴使用。
# 默认已完成目标物种的intreproscan功能注释。
# 默认已按照参考教程1完成了基因家族扩张与收缩分析,获得了cafe 运行输出的结果文件 report_run.cafe。
1. 将intreproscan注释结果转为WEGO格式
1
2
3
4
5
6
7
|
cd /your intreproscan output directory/
# 包含`interproscan`运行得到的tsv格式结果
# 运行脚本
/apps/users/andrew/littletools/interproscan2wego.sh your.tsv
# 获得`wego.txt`文件
|
2. 使用cafetutorial_report_analysis.py解析cafe结果文件
1
2
3
4
5
6
|
cd /your cafe output directory/
# 添加 -r 0 参数,输出发生扩张的所有基因家族
python2 cafetutorial_report_analysis.py -i report_run.cafe -r 0 -o reports/summary_run
# 获得`reports`文件夹中的`summary_run_fams.txt`文件
|
3. 提取目标种的扩张基因家族中每个基因的基因名
1
2
3
4
5
6
7
8
9
10
11
|
cd reports
# 查看'summary_run_fams.txt'文件第一行,确定目标物种的node号
# 下面以目标物种node号为`0`进行演示
# 查看`extrac_gene.sh`帮助文档
# 运行脚本
/apps/users/andrew/littletools/cafe/extrac_gene.sh 0 orthofinder的Results文件夹的绝对路径 (orthofinder输入数据中)该物种的蛋白文件名
# 获得`node0_proteins`和`node0_all_proteins`文件夹
# 两个文件夹中均有`gene.id`作为后续分析输入文件
# 不同点在于`node0_proteins`文件夹中是快速扩张的基因家族中的基因名,`node0_all_proteins`文件夹中是所有扩张的基因家族中的基因名,优先使用`node0_proteins`中的gene.id
|
4. 对发生扩张的基因进行GO富集分析
1
2
3
4
5
6
7
|
ln -s /your/path/wego.txt ./
ln -s /your/path/gene.id ./
# 运行脚本
/apps/users/andrew/littletools/GO/GO_Enrichment.sh your_species_name
# 获得`GO_Enrich`文件夹中`XX.Enriched_pathway_plot.png`点状图,下载到本地查看
|