文章预览
来源:DeepHub IMBA,编辑:数据派THU 本文与你分享可应用于特征选择的各种技术的有用指南。 太多的特征会增加模型的复杂性和过拟合,而太少的特征会导致模型的拟合不足。将模型优化为足够复杂以使其性能可推广,但又足够简单易于训练、维护和解释是特征选择的主要工作。 “特征选择”意味着可以保留一些特征并放弃其他一些特征。本文的目的是概述一些特征选择策略: 删除未使用的列 删除具有缺失值的列 不相关的特征 低方差特征 多重共线性 特征系数 p 值 方差膨胀因子 (VIF) 基于特征重要性的特征选择 使用 sci-kit learn 进行自动特征选择 主成分分析 (PCA) 该演示的数据集在 MIT 许可下发布,来自 PyCaret——一个开源的低代码机器学习库。 数据集相当干净,但我做了一些预处理。请注意,我使用此数据集来演示不同的特征选择策略如何工作,
………………………………