分享R语言和python在生物信息领域做数据分析和数据可视化的简单小例子;偶尔会分享一些组学数据处理相关的内容
今天看啥  ›  专栏  ›  小明的数据分析笔记本

大豆Cell论文中泛基因家族分析复现四:基因家族存在缺失热图

小明的数据分析笔记本  · 公众号  ·  · 2024-11-22 22:00

文章预览

大豆的数据来源论文 https://www.sciencedirect.com/science/article/pii/S0092867420306188 Pan-Genome of Wild and Cultivated Soybeans 大豆基因组数据下载链接 https://ngdc.cncb.ac.cn/soyomics/download 下载基因组fasta和对应的蛋白注释文件,用gffread提取cds序列和蛋白序列 作图代码 dat.family.group %>% pull(group) %>% table() %>% as.data.frame() %>% magrittr::set_colnames(c("group","Freq")) %>% mutate(group=factor(group,levels=c("Core","SoftCore", "Dispensable","Private"))) %>% arrange(group) %>% mutate(x=cumsum(Freq)+0.5) -> segment.df library(ggrastr) pdf(file = "cell.soybean.PanGenome/fig2c01.pdf", width = 12,height = 6) read_tsv("cell.soybean.PanGenome/Orthogroups.GeneCount.tsv") %>% dplyr::select(-Total) %>% column_to_rownames("Orthogroup") %>% mutate(across(everything(),~ifelse(.>0,1,0))) %>% rownames_to_column("familyID") %>% left_join(dat.family.group) %>% ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览