决策树求解算法有哪些?
决策树求解算法有:ID3,C4.5,CART等。
决策树算法是一种逼近离散函数值的方法。这是一种典型的分类方法。首先对数据进行处理,通过归纳算法生成可读的规则和决策树,然后对新数据进行决策分析。本质上,决策树是通过一系列规则对数据进行分类的过程。
决策树方法最早产生于20世纪60年代,到了70年代末。ID3算法由J Ross Quinlan提出,旨在降低树的深度。但是对叶片数量的研究却被忽视了。C4.5算法是在ID3算法的基础上改进的,在预测变量缺失值的处理、剪枝技巧、求导规则等方面都有很大的改进。
它适用于分类和回归问题。决策树算法通过构造决策树来发现数据中包含的分类规则。如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树的构建可以分两步进行。
第一步是决策树的生成:从训练样本集生成决策树的过程。一般来说,训练样本数据集是一个历史的、综合的数据集,用于根据实际需要进行数据分析和处理。第二步是决策树的剪枝:决策树的剪枝是对前一阶段生成的决策树进行检查、修正和修订的过程。
施工方法
决策树构造的输入是一组带有类别标签的例子,构造的结果是一棵二叉树或多分支树。二叉树的内部节点一般表示为一个逻辑判断,如a=aj,其中A为一个属性,aj为该属性的所有值;树的边是逻辑判断的分支结果。
多叉树(ID3)的内部节点是属性,边都是属性的值,有几个属性值就有几条边。树的叶节点都是类别标签。由于不正确的数据表示、噪音或决策树生成过程中产生的重复子树,决策树将会太大。