主要观点总结
本文是初学者机器学习指南的一部分,主要介绍了特征工程和选择技术的基本概念和方法。文章涵盖了基本概念、数据探索、特征清理等关键内容。
关键观点总结
关键观点1: 机器学习简介
文章开篇介绍了机器学习的定义,包括阿瑟·塞缪尔对机器学习的解释以及卡内基梅隆大学对机器学习领域的描述。
关键观点2: 典型的工作流程和任务
文章描述了典型的机器学习工作流程,包括将任务划分为多个阶段的方法,以及机器学习中的典型任务,如监督学习、无监督学习和强化学习。
关键观点3: 数据探索
详细介绍了数据探索中的变量定义、变量识别、单变量分析和双变量分析的方法和技术。
关键观点4: 特征清理
讲解了特征清理中的缺失值处理、异常值处理、稀有值处理和高基数处理的重要性和方法。包括缺失值的随机性和非随机性、如何处理缺失数据、异常值的检测和如何处理异常值、稀有值的处理策略以及高基数的处理。
文章预览
本文 约3800字 ,建议阅读 5分钟 本指南是初学者的简明参考,提供了最简单但广泛使用的特征工程和选择技术。 特征机器学习特征工程和选择是将数据转化为最佳表示的艺术,以大大提升机器学习的效果。本指南是初学者的简明参考,提供了最简单但广泛使用的特征工程和选择技术。 1 基本概念 1.1 什么是机器学习 机器学习是让计算机在没有明确编程的情况下进行操作的学科——阿瑟·塞缪尔 机器学习是一种数据科学技术,它帮助计算机从现有数据中学习,以预测未来的行为、结果和趋势。 机器学习领域试图回答这样一个问题:“我们如何构建能够随着经验自动改进的计算机系统,以及管理所有学习过程的基本规律是什么?”-卡内基梅隆大学 从狭义上讲,在数据挖掘的背景下,机器学习(ML)是让计算机从历史数据中学习,识别数据中的模式
………………………………