文章预览
泛基因组相关的论文中通常都会有这个分析,这个是一个标准化的分析,通常也不会有新的发现。 在最开始的泛基因组论文里这个分析可能会放一个主图,最近的论文里基本上都是把这个分析放到附图里了,论文里会提几句话介绍这个结果。 这个分析就是组装了很多个基因组,然后每个基因组有对应的蛋白编码基因注释。用orthofinder这个软件对所有的蛋白编码基因进行聚类,获得基因家族。根据基因家族的有无划分为不同的类,比如核心,可变,私有等。然后再对不同类别的基因家族的性质进行分析,比如基因长度,外显子数量这些 如果要做这个分析需要准备的数据有 基因组 fasta 文件 蛋白编码基因的注释文件 gff格式 可以利用以上两个文件获得 蛋白编码基因的cds序列 可以利用以上两个文件获取 蛋白编码基因的蛋白序列 有的蛋白编码基因注释
………………………………