基因家族扩张基因分析（1）：GO富集

参考教程：

https://zhuanlan.zhihu.com/p/166080842

https://www.jianshu.com/p/146093c91e2b

https://blog.csdn.net/weixin_43569478/article/details/83744242

https://www.jianshu.com/p/e133ab3169fa

Tips：

# 仅供 IEMB-1 用户参考。

# 进入登陆服务器页面后，所有命令可直接使用复制粘贴使用。

# 默认已完成目标物种的intreproscan功能注释。

# 默认已按照参考教程1完成了基因家族扩张与收缩分析，获得了cafe 运行输出的结果文件 report_run.cafe。

1. 将`intreproscan`注释结果转为WEGO格式

1
2
3
4
5
6
7


cd /your intreproscan output directory/
# 包含`interproscan`运行得到的tsv格式结果

# 运行脚本
/apps/users/andrew/littletools/interproscan2wego.sh your.tsv

# 获得`wego.txt`文件

2. 使用`cafetutorial_report_analysis.py`解析`cafe`结果文件

1
2
3
4
5
6


cd /your cafe output directory/

# 添加 -r 0 参数，输出发生扩张的所有基因家族
python2 cafetutorial_report_analysis.py -i report_run.cafe -r 0 -o reports/summary_run

# 获得`reports`文件夹中的`summary_run_fams.txt`文件

3. 提取目标种的扩张基因家族中每个基因的基因名

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


cd reports
# 查看'summary_run_fams.txt'文件第一行，确定目标物种的node号
# 下面以目标物种node号为`0`进行演示

# 查看`extrac_gene.sh`帮助文档
# 运行脚本
/apps/users/andrew/littletools/cafe/extrac_gene.sh 0 orthofinder的Results文件夹的绝对路径 （orthofinder输入数据中）该物种的蛋白文件名

# 获得`node0_proteins`和`node0_all_proteins`文件夹
# 两个文件夹中均有`gene.id`作为后续分析输入文件
# 不同点在于`node0_proteins`文件夹中是快速扩张的基因家族中的基因名，`node0_all_proteins`文件夹中是所有扩张的基因家族中的基因名，优先使用`node0_proteins`中的gene.id

4. 对发生扩张的基因进行GO富集分析

1
2
3
4
5
6
7


ln -s /your/path/wego.txt ./
ln -s /your/path/gene.id ./

# 运行脚本
/apps/users/andrew/littletools/GO/GO_Enrichment.sh your_species_name

# 获得`GO_Enrich`文件夹中`XX.Enriched_pathway_plot.png`点状图，下载到本地查看

Contents

参考教程：

Tips：

1. 将intreproscan注释结果转为WEGO格式

2. 使用cafetutorial_report_analysis.py解析cafe结果文件

3. 提取目标种的扩张基因家族中每个基因的基因名

4. 对发生扩张的基因进行GO富集分析

1. 将`intreproscan`注释结果转为WEGO格式

2. 使用`cafetutorial_report_analysis.py`解析`cafe`结果文件