决策树算法CART和C4.5决策树有什么区别?它们用在什么领域?
1,C4.5算法基于ID3算法,采用信息增益率的方法选择测试属性。CART算法使用二进制递归分割技术,这不同于基于信息熵的算法。CART算法计算每个样本集划分的GINI系数,GINI系数越小,划分越合理。
2.决策树算法是一种逼近离散函数值的方法。这是一种典型的分类方法。首先对数据进行处理,通过归纳算法生成可读的规则和决策树,然后对新数据进行决策分析。本质上,决策树是通过一系列规则对数据进行分类的过程。
3.决策树算法构建决策树来发现数据中包含的分类规则。如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树的构建可以分两步进行。第一步是决策树的生成:从训练样本集生成决策树的过程。一般来说,训练样本数据集是一个历史的、综合的数据集,用于根据实际需要进行数据分析和处理。第二步是决策树的剪枝技术:决策树的剪枝是对前一阶段生成的决策树进行检查、纠正和修正的过程,主要是利用新的样本数据集(称为测试数据集)中的数据来检查生成决策树过程中产生的初步规则,并剪掉那些影响预平衡精度的分支。