文章预览
大豆的数据来源论文 https://www.sciencedirect.com/science/article/pii/S0092867420306188 Pan-Genome of Wild and Cultivated Soybeans 大豆基因组数据下载链接 https://ngdc.cncb.ac.cn/soyomics/download 下载基因组fasta和对应的蛋白注释文件,用gffread提取cds序列和蛋白序列 蛋白序列用eggnog-mapper做注释,可以直接用在线版 http://eggnog-mapper.embl.de/ 这个也可以配置本地版,数据比较多的话还是配置本地版比较方便,但是这个软件的本地版需要对应的数据库,在国内网络不太好的话下载数据库文件还挺费劲的 注释完拿到的数据格式 统计一下每个基因ID属于哪个类别 就是 核心 可变这些 read_tsv("cell.soybean.PanGenome/Orthogroups.tsv") %>% pivot_longer(!Orthogroup) %>% separate_rows(value,sep = ", ") %>% left_join(dat.family.group %>% dplyr::select(-total), by=c("Orthogroup"="familyID")) 把所有样本做eggnog-mapper注释的结果
………………………………