文章预览
在挖掘数据时,如果只是用别人比对好的GEO表达矩阵去分析差异基因,很有可能一些 基因已经被研究过了,导致创新性不足。 SRA(Sequence Read Archive)数据库存储了二代测序的原始数据 ,还有很大的挖掘空间 。 比如人家只做了编码基因,我们就 可以研究非编码基因;人家只做了非编码基因,我们就可以研究编码基因。 网址:https://www.ncbi.nlm.nih.gov/sra 高通量测序数据分析流程 :① 测序数据下载 ;②质控与过滤;③序列比对;④序列组装;⑤表达定量和差异分析及富集分析等。根据数据产生特点,将SRA数据分为四类:Study--研究课题;Experiments--实验设计;Runs--测序结果集;Samples--样品信息。SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs。 一个Study可能包含多个Experiments。Experiments则包含了Sample、DNA source、测序平台、数据处理等。一个Experi
………………………………