分享R语言和python在生物信息领域做数据分析和数据可视化的简单小例子;偶尔会分享一些组学数据处理相关的内容
今天看啥  ›  专栏  ›  小明的数据分析笔记本

大豆Cell论文中泛基因家族分析复现五:不同类别基因家族里基因数量堆积柱形图

小明的数据分析笔记本  · 公众号  ·  · 2024-11-23 15:14

文章预览

大豆的数据来源论文 https://www.sciencedirect.com/science/article/pii/S0092867420306188 Pan-Genome of Wild and Cultivated Soybeans 大豆基因组数据下载链接 https://ngdc.cncb.ac.cn/soyomics/download 下载基因组fasta和对应的蛋白注释文件,用gffread提取cds序列和蛋白序列 作图代码 read_tsv("cell.soybean.PanGenome/Orthogroups.GeneCount.tsv") %>% dplyr::select(-Total) %>% left_join(dat.family.group %>% dplyr::select(-total), by=c("Orthogroup"="familyID")) %>% pivot_longer(!c(Orthogroup,group), names_to = "sample_id") %>% group_by(group,sample_id) %>% summarise(value=sum(value)) %>% ungroup() %>% mutate(group=factor(group,levels=rev(c("Core","SoftCore", "Dispensable","Private")))) %>% ggplot(aes(y=sample_id,x=value))+ geom_bar(stat = "identity", aes(fill=group), width = 0.9, show.legend = FALSE)+ theme_bw(base_size = 15) ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览