文章预览
本文 约11200字 ,建议阅读 20分钟 本指南是初学者的简明参考,提供了最简单但广泛使用的特征工程和选择技术。 4 特征工程 4.1 特征缩放 定义:特征缩放是一种用于标准化数据自变量或特征范围的方法。在数据处理中,它也被称为数据归一化,通常在数据预处理步骤中执行。 4.1.1 为什么特征缩放很重要 如果输入范围发生变化,在某些算法中,目标函数将无法正常工作。梯度下降在完成特征缩放后收敛得更快。 梯度下降是一种常用的优化算法,用于逻辑回归、支持向量机、神经网络等。 涉及距离计算的算法,如KNN、聚类,也受到特征大小的影响。只需考虑欧几里德距离的计算方法:取观测值之间平方差之和的平方根。这种距离会受到变量之间尺度差异的极大影响。方差较大的变量对这种度量的影响比方差较小的变量大。 注意:基于树的算法
………………………………