主要观点总结
这是一篇关于单细胞RNA测序数据分析的文章,主要使用了Seurat包进行处理。
关键观点总结
关键观点1: 数据整理
整理并格式化原始数据,为单细胞数据分析做准备。
关键观点2: 质量控制
对单细胞数据进行质量控制,包括线粒体基因表达比例、核糖体基因表达比例等。
关键观点3: 整合降维聚类分群
使用Harmony等方法进行数据的整合、降维、聚类分群。
关键观点4: 注释
使用celldex等数据库对聚类结果进行注释,得到细胞类型等信息。
关键观点5: 分组可视化及组件细胞比例比较
比较不同组之间的细胞数量和比例,以及各组分在总细胞中的比例。
关键观点6: 差异分析
寻找不同组之间差异表达的基因,并进行可视化展示。
文章预览
这篇文章介绍的是有分组的单细胞数据怎样分析, 数据来自GEO的GSE231920,有3个treat,3个control样本,代码完整 ,可以自行下载数据跑一跑,但请注意细胞数量是6w,对计算资源要求较高,自己的电脑跑不动,需要在服务器上跑。 1.整理数据 因为数据组织的不是每个样本一个文件夹的形式,所以需要自行整理,参考代码如下,注意这段改名的代码不要反复运行: #untar( "GSE231920_RAW.tar" ,exdir = "GSE231920_RAW" ) #unlink( "GSE231920_RAW.tar" ) library(stringr) fs = paste0( "GSE231920_RAW/" ,dir( "GSE231920_RAW/" )) fs samples = dir( "GSE231920_RAW/" ) %>% str_split_i( "_" , 2 ) %>% unique();samples #为每个样本创建单独的文件夹 lapply(samples, function (s) { ns = paste0( "01_data/" ,s) if (!file.exists(ns))dir. create (ns,recursive = T) }) #每个样本的三个文件复制到单独的文件夹 lapply(fs, function (s) { #s = f
………………………………