主要观点总结
本文描述了对一个GEO芯片数据挖掘的分析过程,包括获取数据、数据预处理、差异分析和结果讨论。文章的关键点包括正常组织与癌旁组织的表达量比较、差异分析的结果以及可能的原因。
关键观点总结
关键观点1: 数据获取和处理
从NCBI的GEO数据库获取芯片数据,对111个样本进行表达量矩阵的提取和探针id转换基因symbol。
关键观点2: 样本分组和差异分析
根据生物学背景和研究目的对样本进行人为分组,包括55个癌旁正常样本和56个肿瘤样本。进行差异分析,结果展示了部分差异基因的信息。
关键观点3: 结果讨论和灵魂发问
讨论差异分析结果不明显的原因,包括生物学异质性、样本污染、技术变异等。老板的灵魂发问引发对实验结果与文献对比的思考。
关键观点4: 寻找类似实验设计的公共数据集
提议找到类似的实验设计的公共数据集,以验证结果,并探讨了可能的生物学机制。
文章预览
前面已经给出了3个GEO芯片数据挖掘分析点,详见: 正常组织与癌旁组织可以一视同仁吗? 2万个基因少一半也不影响最后的差异分析富集结果啊? 火山图展示差异分析上下调基因数量,不平衡无处不在吗? 现在继续完成老板分配的任务,《100个GEO芯片数据分析》,真的是信息量很大啊。又遇到了一个有意思的芯片数据,数据如下: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE44861 , 作者一下子做了111个样本的芯片测序,那可是在2013年提交进GEO的,说明芯片测序可能在更早的时候, 那个时候单个表达量芯片样品起码得两三千块钱人民币,这个队列保守估计仅仅是芯片费用十几万了。 样本表型包括: 111 colon tissues from tumors and adjacent noncancerous tissues 然后按照芯片的标准分析,如下: 首先是获取样本分组: ## 魔幻操作,一键清空~ rm(list = ls()) library(A
………………………………