主要观点总结
文章介绍了在数据处理中常见的三个术语:中心化、归一化和标准化,并详细解释了它们的定义、方法、用途和公式。文章还提到了在R语言中使用scale函数进行中心化和标准化的方法。文章强调了解这三者的区别对数据处理和机器学习非常重要。
关键观点总结
关键观点1: 中心化(Centering)的定义和方法
中心化是将数据的均值调整为零,对于每个数据点,从其值中减去数据的均值。中心化可以使数据分布更加对称,便于下一步的处理。
关键观点2: 归一化(Normalization)的定义和方法
归一化是将数据缩放到一个特定的范围内(通常是[0, 1]),通过减去最小值并除以数据的范围(最大值减去最小值)来实现。归一化适用于需要距离计算的算法,如KNN。
关键观点3: 标准化的狭义和广义定义
标准化是将数据调整为均值为零,标准差为一的分布。狭义上特指z-score标准化,通过减去均值并除以标准差来实现。广义上的标准化是指将数据转换为某种标准形式,以便于比较和分析。
关键观点4: 中心化、归一化和标准化在数据处理中的应用
这三者在数据处理中各有其独特的用途。中心化可以消除批次效应,归一化可以调整不同基因表达量的尺度,标准化可以平衡高低表达基因的影响。在单细胞数据处理中,正确应用这些方法可以显著提高数据分析的质量和可靠性。
关键观点5: R语言中scale函数的使用
在R语言中,可以使用scale函数便捷地实现中心化和标准化。该函数可以选择是否进行中心化和标准化,从而满足不同的数据处理需求。
文章预览
封面 前言介绍 ❝ 在数据处理中, “中心化”、“归一化”、“标准化” 是三个常见的术语。但是很多小伙伴往往对这三者 只是有模糊的认识 ,并不清楚三者在本质上的区别,因此经常混淆使用,但其实 这三者各有不同的用途和方法 。了解它们的区别对数据处理和机器学习等工作具有非常重要的意义。这篇文章,师兄就带着大家一起来揭开它们的神秘面纱! 主要内容 中心化(Centering) 定义: 中心化是指 将数据的均值调整为零 。 方法: 对于每个数据点,从其值中减去数据的均值。 用途: 中心化可以 使数据分布更加对称 ,便于下一步的处理。 例如:在bulk RNA-seq和scRNA-seq数据处理中,中心化可以消除批次效应,使不同批次的数据更具可比性。 公式: 其中, 是原数据, 是数据的均值。 归一化(Normalization) 定义: 归一化是指 将数据缩
………………………………