文章预览
在这个例子中,我们将比较使用不同的编码策略来处理分类特征时, HistGradientBoostingRegressor 的训练时间和预测性能。具体来说,我们将评估以下几种方法: 删除分类特征 使用 OneHotEncoder 使用 OrdinalEncoder ,将分类特征视为有序、等距的量 使用 OrdinalEncoder ,并依赖于 HistGradientBoostingRegressor 估计器的原生类别支持。 我们将使用埃姆斯爱荷华州房屋数据集进行工作,该数据集包含数值和分类特征,其中房屋销售价格是目标变量。 步骤1:加载数据集 from sklearn.datasets import fetch_openml X, y = fetch_openml(data_id= 42165 , as_frame= True , return_X_y= True ) # Select only a subset of features of X to make the example faster to run categorical_columns_subset = [ "BldgType" , "GarageFinish" , "LotConfig" , "Functional" , "MasVnrType" , "HouseStyle" , "
………………………………