专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
今天看啥  ›  专栏  ›  数据派THU

机器学习特征工程,全面指南!(下)

数据派THU  · 公众号  · 大数据  · 2024-12-30 17:00
    

文章预览

本文 约11200字 ,建议阅读 20分钟 本指南是初学者的简明参考,提供了最简单但广泛使用的特征工程和选择技术。 4  特征工程 4.1  特征缩放 定义:特征缩放是一种用于标准化数据自变量或特征范围的方法。在数据处理中,它也被称为数据归一化,通常在数据预处理步骤中执行。 4.1.1  为什么特征缩放很重要 如果输入范围发生变化,在某些算法中,目标函数将无法正常工作。梯度下降在完成特征缩放后收敛得更快。 梯度下降是一种常用的优化算法,用于逻辑回归、支持向量机、神经网络等。 涉及距离计算的算法,如KNN、聚类,也受到特征大小的影响。只需考虑欧几里德距离的计算方法:取观测值之间平方差之和的平方根。这种距离会受到变量之间尺度差异的极大影响。方差较大的变量对这种度量的影响比方差较小的变量大。 注意:基于树的算法 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览