文章预览
前面已经给出了两个GEO芯片数据挖掘分析点,详见: 正常组织与癌旁组织可以一视同仁吗? 以及: 2万个基因少一半也不影响最后的差异分析富集结果啊? 其实已经发表 文献的公共数据集或多或少都有一点点数据分析的瑕疵,来看看这次的问题那,数据集为: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE166466 之前做的差异结果火山图如下: 很可能会让人怀疑这个数据有批次,导致一个分组中绝大多数基因的表达都高于另一个分组 。 > table(deg $g ) down stable up 87 69762 2513 使用箱线图检查一下数据的分布: ## 魔幻操作,一键清空~ rm(list = ls()) library(AnnoProbe) library(GEOquery) library(ggplot2) library(ggstatsplot) library(patchwork) library(reshape2) library(stringr) library(limma) library(tidyverse) getOption( 'timeout' ) options(timeout=10000) ## 1.获取并且检查表达量矩
………………………………