分享R语言和python在生物信息领域做数据分析和数据可视化的简单小例子;偶尔会分享一些组学数据处理相关的内容
今天看啥  ›  专栏  ›  小明的数据分析笔记本

14年前的大豆群体基因组发了Nature Genetics,我们看看论文里都有啥分析(1)PCA

小明的数据分析笔记本  · 公众号  ·  · 2024-11-06 19:21
    

文章预览

论文 Resequencing of 31 wild and cultivated soybean genomes identifies patterns of genetic diversity and selection https://www.nature.com/articles/ng.715 31个大豆重测序数据,14个栽培大豆,21个野生大豆,按照论文中提供的SRA号在NCBI中找到测序数据,这个里面好像是有100多个数据,根据样本名挑选出来这篇文章的数据,有的样本也有很多个数据,我就随机选择了其中的一个,使用kingfisher下载 下载数据代码 python download.py sample.list 参考基因组 Gm82 大豆T2T下载 https://ngdc.cncb.ac.cn/gwh/Assembly/37536/show 把参考基因组的序列ID改一下 cat GWHCAYC00000000.genome.fasta | awk '{print $1}' | seqkit replace -p "GWHCAYC000000" -r "Gm" -o Gm.fa bwa + samtools + picard + deepVariants流程检测SNP bwa index Gm.fa snakemake -s bwa.smk --cores 128 -p ## bwa这个脚本里包括 bwa比对 samtools sam2bam picard snakmake -s deepVariants.smk --cores 32 -p ## 这里deepVariants ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览