文章预览
大豆的数据来源论文 https://www.sciencedirect.com/science/article/pii/S0092867420306188 Pan-Genome of Wild and Cultivated Soybeans 大豆基因组数据下载链接 https://ngdc.cncb.ac.cn/soyomics/download 下载基因组fasta和对应的蛋白注释文件,用gffread提取cds序列和蛋白序列 下载的基因组数据的序列ID和对应的gff文件里的序列ID不一样,基因组数据里的序列有前缀,需要对应的修改 seqkit replace -p "SoyC01." -r "" SoyC01.v1.fasta -o SoyC01.v1.replaceID.fasta 总共27个基因组都需要这样检查修改 提取cds和蛋白 gffread -g SoyC01.v1.replaceID.fasta -x cds.fa -y pep.fa 04.gff/SoyC01.gene.gff 大豆的每个基因组注释每个基因对应着多个转录本,我这里利用gff文件获取最长转录本id,然后根据id提取cds和蛋白 Rscript getLongestTranscriptID.R 04.gff/SoyC01.gene.gff SoyC01.list seqkit grep -f SoyC01.list cds.fa -o SoyC01.cds.fa seqkit grep -f SoyC01.list pep.fa -o SoyC01.pe
………………………………