分享R语言和python在生物信息领域做数据分析和数据可视化的简单小例子;偶尔会分享一些组学数据处理相关的内容
今天看啥  ›  专栏  ›  小明的数据分析笔记本

大豆Cell论文中泛基因家族分析复现三:核心和泛基因家族曲线

小明的数据分析笔记本  · 公众号  ·  · 2024-11-17 19:58

文章预览

大豆的数据来源论文 https://www.sciencedirect.com/science/article/pii/S0092867420306188 Pan-Genome of Wild and Cultivated Soybeans 大豆基因组数据下载链接 https://ngdc.cncb.ac.cn/soyomics/download 下载基因组fasta和对应的蛋白注释文件,用gffread提取cds序列和蛋白序列 前一篇推文已经运行了orthofinder,拿到了Orthogroups.GeneCount.tsv文件,利用这个文件转换得到PanGP这个软件的输入数据,然后用PanGP得到画图数据 文件格式转换代码 library(tidyverse) read_tsv("cell.soybean.PanGenome/Orthogroups.GeneCount.tsv") %>% dplyr::select(-Total) %>% column_to_rownames("Orthogroup") %>% mutate(across(everything(),~ifelse(.>0,1,0))) %>% write_delim(file = "cell.soybean.PanGenome/cell.soybean.PanGP.input", delim = "", col_names = FALSE) PanGP输入数据的部分截图 每行是一个基因家族,每列是一个样本,1代表这个样本里有这个基因家族,0代 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览