文章预览
我们的生物信息学马拉松授课的一个最重要的环节就是表达量矩阵数据处理,其中让大家练习最频繁的就是传统的表达量芯片的差异分析和富集分析啦。这些分析都是基于基因的,而基因有多种多样的id体系,而且不同的数据分析环节经常是需要进行id的转换! 这样的话,大家就会发现,总是有一些基因的id会转换失败,比如下面的案例 : library(clusterProfiler) library(enrichplot) library(org.Mm.eg.db) library(org.Hs.eg.db) tmp = toTable(org.Hs.egSYMBOL2EG) tmp2 = tmp[grepl( '^MT' ,tmp $symbol ),] x "GIMAP7", "NDUFC1" , "NDUFA3" , "NAA38" , "S100A11" , "GIMAP4" , "ATP5ME" , "HIST1H4C" , "IFITM1" , "MT-CO1" , "NEAT1" , "MT-CO2" , "ROMO1" , "MT-ND3" , "SKP1" , "ATP5MD" , "NDUFB1" , "SLIRP" , "MT-CYB" , "MT-ND6" , "NDUFB2" , "MT-ND4L" , "NDUFB3" , "LINC00861" , "NDUFS6" , "MT-ATP6" , "NDUFA12" , "HIST1H1D" , "UBL5" ,
………………………………