分享R语言和python在生物信息领域做数据分析和数据可视化的简单小例子;偶尔会分享一些组学数据处理相关的内容
目录
相关文章推荐
今天看啥  ›  专栏  ›  小明的数据分析笔记本

大豆Cell论文中泛基因家族分析复现六:不同类别基因注释PFAM结构域堆积柱形图

小明的数据分析笔记本  · 公众号  ·  · 2024-11-24 13:26

文章预览

大豆的数据来源论文 https://www.sciencedirect.com/science/article/pii/S0092867420306188 Pan-Genome of Wild and Cultivated Soybeans 大豆基因组数据下载链接 https://ngdc.cncb.ac.cn/soyomics/download 下载基因组fasta和对应的蛋白注释文件,用gffread提取cds序列和蛋白序列 蛋白序列用eggnog-mapper做注释,可以直接用在线版 http://eggnog-mapper.embl.de/ 这个也可以配置本地版,数据比较多的话还是配置本地版比较方便,但是这个软件的本地版需要对应的数据库,在国内网络不太好的话下载数据库文件还挺费劲的 注释完拿到的数据格式 统计一下每个基因ID属于哪个类别 就是 核心 可变这些 read_tsv("cell.soybean.PanGenome/Orthogroups.tsv") %>% pivot_longer(!Orthogroup) %>% separate_rows(value,sep = ", ") %>% left_join(dat.family.group %>% dplyr::select(-total), by=c("Orthogroup"="familyID")) 把所有样本做eggnog-mapper注释的结果 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览