文章预览
大豆的数据来源论文 https://www.sciencedirect.com/science/article/pii/S0092867420306188 Pan-Genome of Wild and Cultivated Soybeans 大豆基因组数据下载链接 https://ngdc.cncb.ac.cn/soyomics/download 下载基因组fasta和对应的蛋白注释文件,用gffread提取cds序列和蛋白序列 前一篇推文已经运行了orthofinder,拿到了Orthogroups.GeneCount.tsv文件,利用这个文件转换得到PanGP这个软件的输入数据,然后用PanGP得到画图数据 文件格式转换代码 library(tidyverse) read_tsv("cell.soybean.PanGenome/Orthogroups.GeneCount.tsv") %>% dplyr::select(-Total) %>% column_to_rownames("Orthogroup") %>% mutate(across(everything(),~ifelse(.>0,1,0))) %>% write_delim(file = "cell.soybean.PanGenome/cell.soybean.PanGP.input", delim = "", col_names = FALSE) PanGP输入数据的部分截图 每行是一个基因家族,每列是一个样本,1代表这个样本里有这个基因家族,0代
………………………………