统计-聚类:K means 和 K nearest

K值选择原理:

1 目前尚没有明确的方法选择最佳,所以需要多尝试

2 K值低,会受离群值的影响

3 K值高,会导致一些小样本量的样本没有话语权


K-means原理:

1 选择K值。

2 如果K=3,就随机选择3个母点
3 计算每个点到这三个母点的距离d
4 找到距离d的最小值,这个点就属于哪一类
5 重复很多很多次,直至不再变化了,此时数据就被分成K=3类

K nearest原理:

1. 将数据映射成PCA的格式
2. 随机找一个母点
image.png
3. 计算每一个点到这个母点的距离,如图,这个母点为绿色类
4. 举例:
  • K=11时,将图中所有点到黑色母点的距离排序,取TOP11个点
  • 11个点中,7个为红色,3个为橙色,1个为绿色。则这个点属于红色类

你可能感兴趣的:(统计-聚类:K means 和 K nearest)