机器学习实战 K-近邻算法

K-近邻算法

优点：精度高、对异常值不敏感、无数据输入假定

缺点：计算复杂高、空间复杂度高

适用数据范围：数值型和标称型

一般流程

收集数据：可以使用任何方法

准备数据：距离计算所需要的数值，最好是结构化的数据结构

分析数据：可以使用任何方法

训练算法：此步骤不适用于K-近邻算法

测试算法：计算错误率

使用算法：首先需要输入样本数据和结构化的输出结果，然后运行K-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。

def createDataset():

group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) #我觉得可以这样理解，每一种方括号都是一个维度（秩），这里就是二维数组，最里面括着每一行的有一个方括号，后面又有一个，就是二维，四行

labels=['A','A','B','B']

return group,labels

createDataset()函数创造数据集和标签

K-近邻算法伪代码

计算已知类别数据集中的点与当前点之间的距离

按照距离递增次序排序

选取与当前点距离最小的k个点

确定前k个点所在类别的出现频率

返回前k个点出现频率最高的类别作为当前点的预测分类

def classify0(inX,dataSet,labels,k): #inX是你要输入的要分类的“坐标”，dataSet是上面createDataSet的array，就是已经有的，分类过的坐标，label是相应分类的标签，k是KNN，k近邻里面的k

dataSetSize=dataSet.shape[0] #dataSetSize是dataSet的行数，用上面的举例就是4行

diffMat=tile(inX,(dataSetSize,1))-dataSet #前面用tile，把一行inX变成4行一模一样的（tile有重复的功能，dataSetSize是重复4遍，后面的1保证重复完了是4行，而不是一行里有四个一样的），然后再减去dataSet，是为了求两点的距离，先要坐标相减，这个就是坐标相减

sqDiffMat=diffMat**2 #上一行得到了坐标相减，然后这里要(x1-x2)^2，要求乘方

sqDistance=sqDiffMat.sum(axis=1) #axis=1是列相加，这样得到了(x1-x2)^2+(y1-y2)^2

distances=sqDistance**0.5 #开根号，这个之后才是距离

sortedDistIndicies=distances.argsort() #argsort是排序，将元素按照由小到大的顺序返回下标，比如([3,1,2]),它返回的就是([1,2,0])

classCount={}

for i in range(k):

voteIlabel=labels[sortedDistIndicies[i]]

classCount[voteIlabel]=classCount.get(voteIlabel,0)+1 #get是取字典里的元素，如果之前这个voteIlabel是有的，那么就返回字典里这个voteIlabel里的值，如果没有就返回0（后面写的），这行代码的意思就是算离目标点距离最近的k个点的类别，这个点是哪个类别哪个类别就加1

sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True) #key=operator.itemgetter(1)的意思是按照字典里的第一个排序，{A:1,B:2},要按照第1个（AB是第0个），即‘1’‘2’排序。reverse=True是降序排序

return sortedClassCount[0][0] #返回类别最多的类别

机器学习实战 K-近邻算法

你可能感兴趣的:(机器学习实战 K-近邻算法)