文章预览
大豆的数据来源论文 https://www.sciencedirect.com/science/article/pii/S0092867420306188 Pan-Genome of Wild and Cultivated Soybeans 大豆基因组数据下载链接 https://ngdc.cncb.ac.cn/soyomics/download 下载基因组fasta和对应的蛋白注释文件,用gffread提取cds序列和蛋白序列 把所有样本的cds合并到一起 cat *.CDS.fasta > all.samples.cds 计算dN/dS值的和核苷酸多样性整体的计算量还是挺大的,我这里每个类别的基因家族随便选择几个 dat.family.group %>% filter(group=="Core") %>% sample_n(10) %>% pull(familyID) %>% write_lines("cell.soybean.PanGenome/core_family.txt") python get_wgd_input.py core_family.txt ../06.longestTranscriptProt/OrthoFinder/Results_Jul27/Orthogroups/Orthogroups.txt core_wgd.input core.gene.ids python脚本把Orthofinder的结果整理成wgd这个软件的输入格式,同时生成一个所有基因的id,把这些基因先从所有cds里提取出来 python脚本第一个位置
………………………………