大豆Cell论文中泛基因家族分析复现二：不同类别基因家族比例饼图和频率柱形图

小明的数据分析笔记本 · 公众号 · · 2024-11-16 19:25

文章预览

大豆的数据来源论文 https://www.sciencedirect.com/science/article/pii/S0092867420306188 Pan-Genome of Wild and Cultivated Soybeans 大豆基因组数据下载链接 https://ngdc.cncb.ac.cn/soyomics/download 下载基因组fasta和对应的蛋白注释文件，用gffread提取cds序列和蛋白序列下载的基因组数据的序列ID和对应的gff文件里的序列ID不一样，基因组数据里的序列有前缀，需要对应的修改 seqkit replace -p "SoyC01." -r "" SoyC01.v1.fasta -o SoyC01.v1.replaceID.fasta 总共27个基因组都需要这样检查修改提取cds和蛋白 gffread -g SoyC01.v1.replaceID.fasta -x cds.fa -y pep.fa 04.gff/SoyC01.gene.gff 大豆的每个基因组注释每个基因对应着多个转录本，我这里利用gff文件获取最长转录本id，然后根据id提取cds和蛋白 Rscript getLongestTranscriptID.R 04.gff/SoyC01.gene.gff SoyC01.list seqkit grep -f SoyC01.list cds.fa -o SoyC01.cds.fa seqkit grep -f SoyC01.list pep.fa -o SoyC01.pe ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博