文章预览
主成分分析(PCA,Principal Componet Analysis)是数据科学中用于可视化和降维的必不可少的工具,但它通常被复杂的数学所掩盖。至少可以说,要理解其原理是非常困难的,导致很难完全欣赏到它的美妙之处。 虽然公式对于证明一个概念的有效性很重要,但我认为同样重要的是通过一个故事来分享公式背后的叙述。 什么是PCA 主成分分析(PCA)是一种将高维数据转换为低维数据的技术,同时尽可能保留更多的信息。如下图的三维转二维效果图: image-20240722230006745 image-20240722230020043 PCA在处理具有大量特征的数据集时非常有用。常见的应用,如图像处理和基因组研究,往往需要处理成千上万甚至数万个列。 虽然拥有更多数据通常是好的,但有时数据中包含的信息过多,会导致模型训练时间极长,并且维度灾难开始成为问题。在这种情况下,减少维度可能
………………………………