分享R语言和python在生物信息领域做数据分析和数据可视化的简单小例子;偶尔会分享一些组学数据处理相关的内容
今天看啥  ›  专栏  ›  小明的数据分析笔记本

大豆Cell论文中泛基因家族分析复现二:不同类别基因家族比例饼图和频率柱形图

小明的数据分析笔记本  · 公众号  ·  · 2024-11-16 19:25

文章预览

大豆的数据来源论文 https://www.sciencedirect.com/science/article/pii/S0092867420306188 Pan-Genome of Wild and Cultivated Soybeans 大豆基因组数据下载链接 https://ngdc.cncb.ac.cn/soyomics/download 下载基因组fasta和对应的蛋白注释文件,用gffread提取cds序列和蛋白序列 下载的基因组数据的序列ID和对应的gff文件里的序列ID不一样,基因组数据里的序列有前缀,需要对应的修改 seqkit replace -p "SoyC01." -r "" SoyC01.v1.fasta -o SoyC01.v1.replaceID.fasta 总共27个基因组都需要这样检查修改 提取cds和蛋白 gffread -g SoyC01.v1.replaceID.fasta -x cds.fa -y pep.fa 04.gff/SoyC01.gene.gff 大豆的每个基因组注释每个基因对应着多个转录本,我这里利用gff文件获取最长转录本id,然后根据id提取cds和蛋白 Rscript getLongestTranscriptID.R 04.gff/SoyC01.gene.gff SoyC01.list seqkit grep -f SoyC01.list cds.fa -o SoyC01.cds.fa seqkit grep -f SoyC01.list pep.fa -o SoyC01.pe ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览