主要观点总结
本文介绍了无监督学习的基本概念、主要类型和应用场景,包括数据集变换与聚类算法。详细解释了PCA主成分分析、NMF非负矩阵分解、ML流形学习(如MDS多维标度法、LLE局部线性嵌入法、Isomap保距映射法、t-SNE分布邻域嵌入算法)以及聚类算法(如KMeans、GMM、Agglomerative、DBSCAN)的基本原理、参数设置和应用实例。展示了如何通过调整模型参数来改善数据分类和特征提取的效果,并讨论了这些模型在解决非线性数据问题时的适用性和局限性。
关键观点总结
关键观点1: 无监督学习简介
无监督学习是一种不依赖标记数据的学习算法,通过输入数据学习数据中的规律和结构。
关键观点2: 无监督学习的主要类型
无监督学习主要分为两种类型:数据集变换与聚类算法。数据集变换通过创建数据集的新的表达方式,使其特性更容易理解。聚类算法则是将数据划分成不同的组,每组数据中包含有类似的特征。
关键观点3: PCA主成分分析
PCA是最常用的非监督学习,常用于高维数据的降维,提取数据的主要特征分量。它通过旋转数据集的方法,把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标上,第二大方差在第二个坐标上,依此类推。
关键观点4: NMF非负矩阵分解
NMF是另一种用于数据集变换的无监督学习,它试图将每个数据点分解成一些分量的加权求和,与PCA不同的是,它使用的系数均为非负值。
关键观点5: ML流形学习
流形学习试图把一个低维度流形数据嵌入到一个高维度空间来描述数据集,通过转换找不到的数据规律,常见的模型有t-SNE、MDS、LLE、Isomap等。
关键观点6: 聚类算法
聚类算法将数据划分成不同的组,每组数据中包含有类似的特征。常见的模型有KMeans、GMM、Agglomerative、DBSCAN等。KMeans是最常用最简单的模型,而GMM可以看成是升级版的KMeans,Agglomerative则更类似于树模型,DBSCAN是更智能化的模型,通过数据点的聚集程度判断簇中心。
文章预览
无监督学习顾名思义数据中不包含已知的输出结果,学习算法中只有输入数据,算法需要从这些输入数据中提取相关规律。无监督学习主要分为两种类型:数据集变换与聚类算法,数据集的无监督变换是创建数据集的新的表达方式,使其特性更容易理解,最常见的模型有 PCA、NMF、t-SNE 等模型。聚类算法则是将数据划分成不同的组,每组数据中包含有类似的特征,常见的模型有 KMeans、DBSCAN、GMM、Agglomerative 等,下面将对各种模型的特性与应用场景作详细介绍。 数据集变换的一个主要常见应用就是降维和压缩数据,从多维数据中提取其重要的特征,最常用的模型就是 PCA 与 NMF。另一个应用是流形学习,它试图把一个低维度流形数据嵌入到一个高维度空间来描述数据集,通过转换找不到的数据规律,常见的模型有 t-SNE、MDS、LLE、Isomap 等。 一、PCA 主成
………………………………