文章预览
大家好,我是章北海 最近在看了几篇数据降维相关文章,顺便总结记录一下。 在机器学习和数据挖掘领域,经常面临高维(很多特征或属性)数据的挑战。 高维数据不仅在存储和计算上带来困难,更重要的是,我们很难直观地理解高维空间中数据点的分布和结构。 因此,降维成为了一项重要的数据预处理任务。 什么是降维?顾名思义,就是将高维数据转换到低维空间 (通常是二维或三维) 中,同时尽量保持数据点之间的内在结构。 常见的降维方法有 PCA、、LDA、LLE、Isomap 等。 而今天我们要重点介绍的是 t-SNE (t-distributed Stochastic Neighbor Embedding)。 t-SNE 由 Laurens van der Maaten 和 Geoffrey Hinton 在 2008 年提出, 特别适合将高维数据降维并可视化 。与 PCA 等线性降维方法不同,t-SNE 是一种非线性降维算法。 它的核心思想是:在高维空间和低维空间中,都使用
………………………………