文章预览
决策树是经典的机器学习算法,通过构建树形结构来对数据进行分类或回归。决策树算法具有易解释、易理解和易实现的优点,但在处理复杂问题时可能会出现过拟合的问题,需要采用剪枝等技术来提高决策树的泛化能力。 决策树需要数据量可以很少,既能处理连续特征也能处理离散特征,且不需要做特征缩放,对缺失值、异常值也不敏感。 使用决策树进行分类的过程,可认为是用 if-then 规则基于特征对样本进行分类的过程 :从根节点开始,对样本的某一个特征进行分支条件判断,根据判断结果,将样本点分配到其子结点;此时,每一个子结点对应着该特征的一个取值。如此递归向下移动,直至到达叶结点,最后将样本分配到叶结点的类中。 以对西瓜分类为例: 图 9.1: 西瓜分类决策过程示意图 图9.1完整表达了选择一个好西瓜的策略(决策树)
………………………………