专栏名称: Coggle数据科学
Coggle全称Communication For Kaggle,专注数据科学领域竞赛相关资讯分享。
目录
相关文章推荐
今天看啥  ›  专栏  ›  Coggle数据科学

Kaggle知识点:类别变量处理与精度对比

Coggle数据科学  · 公众号  ·  · 2024-05-08 15:22
    

文章预览

在这个例子中,我们将比较使用不同的编码策略来处理分类特征时, HistGradientBoostingRegressor 的训练时间和预测性能。具体来说,我们将评估以下几种方法: 删除分类特征 使用 OneHotEncoder 使用 OrdinalEncoder ,将分类特征视为有序、等距的量 使用 OrdinalEncoder ,并依赖于 HistGradientBoostingRegressor 估计器的原生类别支持。 我们将使用埃姆斯爱荷华州房屋数据集进行工作,该数据集包含数值和分类特征,其中房屋销售价格是目标变量。 步骤1:加载数据集 from  sklearn.datasets  import  fetch_openml X, y = fetch_openml(data_id= 42165 , as_frame= True , return_X_y= True ) # Select only a subset of features of X to make the example faster to run categorical_columns_subset = [      "BldgType" ,      "GarageFinish" ,      "LotConfig" ,      "Functional" ,      "MasVnrType" ,      "HouseStyle" ,      " ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览