专栏名称: 生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
目录
今天看啥  ›  专栏  ›  生信技能树

数据分析思维之分而治之

生信技能树  · 公众号  ·  · 2024-11-11 22:47
    

文章预览

在前面的笔记中: 扎克伯格背刺基于R语言的Seurat单细胞生态 我提到了一个比较大数据量(接近100万个细胞啦)的单细胞转录组项目,是 929,686 cells derived from 156 fresh clinical samples obtained from 41 HGSOC patients 。 这样的话,它是 31815个基因 ,是 929690 个细胞,所以数值会很恐怖,是29578087350,但是因为是稀疏矩阵,所以这个单细胞表达量矩阵里面绝大部分都是0值,真正有数值的地方是2178171554,差不多是7.36%,这个是单细胞转录组的特性:drop-out。如下所示: > 2178171554/29578087350 [1] 0.07364139 既然数值的地方是2178171554,那么在R编程语言里面读取sparse_matrix.mtx文件会 报错: Error  in  scan(file, nmax = 1, what = what, quiet = TRUE, ...) :    scan() expected  'an integer' , got  '2178171554' Calls: readMM -> scan1 -> scan Execution halted ==> inputs/sparse_matrix.mtx  < == %%MatrixMarket m ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览