专栏名称: 生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
今天看啥  ›  专栏  ›  生信技能树

你永远不知道公共数据集给你埋什么坑

生信技能树  · 公众号  ·  · 2024-08-05 16:11

文章预览

不同格式的单细胞表达量矩阵文件读取的分门别类的代码我们都分享了好多次,最后都是要成为 Seurat 对象。详见: 读取不同格式的单细胞转录组数据及遇到问题的解决办法 ,简单的汇总一下就是: h5格式的单细胞文件读取 : 使用 Seurat 包中的 Read10X_h5 函数。 10X格式的单细胞文件读取 : 10X格式通常包含 matrix.mtx.gz 、 genes.tsv.gz (或 features.tsv.gz )和 barcodes.tsv.gz 三个文件。 使用 Seurat 包中的 Read10X 函数。 txt.gz格式文件读取 : 使用 data.table 包中的 fread 函数。 csv格式文件读取 : 同样使用 data.table 包中的 fread 函数。 遇到的问题及解决办法: 非标准10X数据集 :有时GEO数据库上传的数据可能不符合标准格式,需要进行预处理。 去除第一行和第一列 :如果第一行或第一列包含非数据内容,需要去除以避免读取错误。 解决办法:使用R的数据处理函数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览