数据挖掘十大经典算法之——KNN 算法

数据挖掘十大经典算法系列,点击链接直接跳转

  • 数据挖掘简介及十大经典算法(大纲索引)
  • 1. 数据挖掘十大经典算法之——C4.5 算法
  • 2. 数据挖掘十大经典算法之——K-Means 算法
  • 3. 数据挖掘十大经典算法之——SVM 算法
  • 4. 数据挖掘十大经典算法之——Apriori 算法
  • 5. 数据挖掘十大经典算法之——EM 算法
  • 6. 数据挖掘十大经典算法之——PageRank 算法
  • 7 数据挖掘十大经典算法之——AdaBoost 算法
  • 8. 数据挖掘十大经典算法之——KNN 算法
  • 9. 数据挖掘十大经典算法之——Naive Bayes 算法
  • 10. 数据挖掘十大经典算法之——CART 算法

简介

分类思想比较简单,从训练样本中找出K 个与其最相近的样本,然后看这k 个样本中哪个类别的样本多,则待判定的值(或说抽样)就属于这个类别。

缺点:

1)K 值需要预先设定,而不能自适应

2)当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K 个邻居中大容量类的样本占多数。
该算法适用于对样本容量比较大的类域进行自动分类。

你可能感兴趣的:(基础:数据挖掘)