Parallel induction algorithms for data mining

1. Abstract

C4.5决策树的并行

2. Intro

  • 决策树在大数据集上计算开销太大
  • 找到最优的决策树是NP难问题

3. 顺序C4.5

  • 数据的属性是连续或者离散的
  • 步骤:计算每个属性的information gain;选择带来最大信息增益的属性作为当前树的node;决定branch node;将数据分配到相应的branch上;对每个branch重复执行以上步骤
  • C4.5实现的两个难点:对数据排序;处理连续属性
  • 对于连续数据,C4.5使用相邻item的属性的较小值作为切分点

4. C4.5的并行实现

  • 不同node在不同processor上并行处理,区别是切分数据的方法不一样,这影响了通信开销

4.1. Scheme 1

  • 所有processor保存一份数据副本
  • master processor构建树一直到leaves的数量等于processor的数量,然后每个processor并行处理

4.2. Scheme 2.1 and 2.2

  • 切分数据到不同processor
  • master processor构建树一直到leaves的数量等于processor的数量,然后将相应的数据发送到每个processor
  • scheme 2.1和2.2处理连续属性的方法不一样。2.1中所有连续属性的值都duplicate到每个processor;2.2中master与其他processor通信,传递每个processor需要的local values

4.3. 不同shemes的分析

  • scheme 1的通信开销最小,但是内存开销大
  • scheme 2.1 减小通信开销
  • scheme 2.2 节省了内存开销,但是需要更多的通信

5. 实验

  • 使用的数据集:PEOPLE、LETTER-RECOGNITION、CONNECT-4

6. Conclusion

  • 三种不同的并行schemes
  • poor load-balancing的问题

你可能感兴趣的:(Parallel induction algorithms for data mining)