数据挖掘十大经典算法之——C4.5 算法

数据挖掘十大经典算法系列,点击链接直接跳转

  • 数据挖掘简介及十大经典算法(大纲索引)
  • 1. 数据挖掘十大经典算法之——C4.5 算法
  • 2. 数据挖掘十大经典算法之——K-Means 算法
  • 3. 数据挖掘十大经典算法之——SVM 算法
  • 4. 数据挖掘十大经典算法之——Apriori 算法
  • 5. 数据挖掘十大经典算法之——EM 算法
  • 6. 数据挖掘十大经典算法之——PageRank 算法
  • 7 数据挖掘十大经典算法之——AdaBoost 算法
  • 8. 数据挖掘十大经典算法之——KNN 算法
  • 9. 数据挖掘十大经典算法之——Naive Bayes 算法
  • 10. 数据挖掘十大经典算法之——CART 算法

简介

决策树 :采用自顶向下的递归方式,把一组无序的数据整理成类似于流程图的树结构。每个枝节点表示一个属性,每个分枝代表属性的一种选择,每个叶节点存放选择之后对应的结果(类标号)。一旦建立好了决策树,对于一个未给定类标号的样本元组,其跟踪一条由根节点到叶节点的路径,就可以得到一条对应的合取规则。(好理解吗,不好理解就上图!)
数据挖掘十大经典算法之——C4.5 算法_第1张图片

决策树的优势在于不需要任何领域知识或参数设置,适合于探测性的知识发现,故而常用于解决机器学习和数据挖掘中的统计分类问题,简单讲,它的目标就是将具有p维特征的n个样本分到c个类别中去。

常见的决策树算法有ID3、C4.5、CART。ID3使用信息熵的概念来做特征选择,然后通过学习数据来建立决策树。C4.5算法是对ID3算法的一个扩展,使用信息增益率来选择属性。

原理

步骤

特性

1. 优点
  • 1、直观易懂
  • 2、分类效率较高
  • 3、可以处理非离散数据
  • 4、可以处理不完整数据
  • 5、通过剪枝调整树模型
2. 缺点
  • 1、不适合处理大量数据。在构造树的过程中,需要对数据集进行多次顺序扫描和排序,因而导致算法的低效。
  • 2、对分类敏感

案例

代码

学术

  • 【算法调优】数据挖掘中改进的C4.5决策树分类算法

应用

凭借其独特的特点及突出的优势,C4.5算法已经在金融、医疗等行业得到了成功的应用,在其他多领域也被广泛接受、研究应用。

  • 【金融】决策树C4.5算法在银行信贷业务工作中的应用研究
  • 【教育】决策树C4.5算法在学生成绩评估中的应用研究
  • 【医疗】基于决策树分类C4.5算法对乳腺肿块计算机辅助诊断的应用研究

参考资料

你可能感兴趣的:(基础:数据挖掘)