林梓烯

机器学习——支持向量机

一、基于最大间隔分隔数据

二、寻找最大间隔

1. 最大间隔

2. 拉格朗日乘子法

3. 对偶问题

三、SMO高效优化算法

四、软间隔

五、SMO算法实现

1. 简化版SMO算法

2. 完整版SMO算法

3. 可视化决策结果

六、核函数

1. 线性不可分——高维可分

2. 核函数

七、垃圾邮件分类

八、总结

上次实验使用的logistic回归是一种线性分类模型，其基本思想是根据数据集训练出一个线性回归模型，再使用sigmoid函数将输出映射到0到1范围内，这个输出值就是样本预测为正例的概率，根据概率分类样本，因此logistic回归是根据所有数据样本来确定一个线性模型的。

这次实验实验的支持向量机（Support Vector Machines，SVM）和logistic回归很类似，SVM也是一种解决二分类问题的线性分类算法，与logistic回归不同的是，SVM分类只考虑样本分界线附近的样本点，即支持向量，其选择划分数据集的超平面是只根据支持向量来决定的，而logistic回归训练模型时所有样本都有参与计算，因此logistic回归是考虑所有样本点的。因此，它们的训练目标是不一样的，logistic回归是为了得到最拟合数据集的线性模型，而SVM是为了得到使支持向量之间间隔最大的超平面。

一、基于最大间隔分隔数据

我们先从一个简单的二维的数据集开始，这个二维数据集中的样本都分布在二维平面，其中“+”和“-”分别代表两种类别的样本。要划分下面这个数据集，我们需要一条能将正负样本区分隔开的直线。如下图所示。

寻找一条划分数据集的直线很简单，但是会有一个问题，划分数据集的直线可以有很多条，我们究竟应该选择那一条直线呢？

我们直观看上去，肯定是选择红色的这条直线a0，而不是其他的直线，因为红色这条直线离正负样本的距离都较远，使用它作为划分直线能够很好的将正负样本分隔开。而对于其他的直线，它们离某一类的样本太接近了，这样的划分直线虽然在训练集上划分效果很好，但是遇到没见过的样本，它的预测性能就可能比较差了，比如很接近正样本的划分直线a1，它在训练集上能完全将正负样本区分开，但是如果遇到一个相对比较靠近负样本的样本，它实际上是正样本，但a1却会将其划分为负样本，对于划分直线a2也是一样。

我们希望得到的划分直线的容忍性好，鲁棒性好，泛化能力强，就需要选择一条使样本之间间隔最大的直线。

在二维数据集中，划分数据集的是一条直线，在三维数据集中，划分数据集的就得是平面了，那么再更高维的数据集中，应该使用什么对象来划分数据集呢？在高维数据集中，用来划分数据集的对象被称为超平面，也就是分类的决策边界。所有用来划分数据集的对象都可以称作超平面，包括二维的直线和三维的平面。

SVM的训练目标就是找到一个能最大化分类边界的超平面，用该超平面来分类预测样本。

二、寻找最大间隔

1. 最大间隔

既然支持向量机的目标是找到一个与正负样本间隔最大的超平面，那么首先我们需要知道间隔的表达式。

对于训练数据：

$D=\{x_i, y_i\},\,x\epsilon R^n, y\epsilon {\{-1,+1\}}$

该数据集线性可分当且仅当：

$\exists w, b \quad s.t. \quad w^Tx_i+b>0 \;\; if \;\; y_i=+1$ ，且

$w^Tx_i+b<0\;\;if\;\;y_i=-1$

上式的w和x都是用向量来表示的，w={w1,w2,...,wn)，x={x1,x2,...,xn}。

这里，我们使用的类别标签是-1和+1，而不是0和1，因为使用+1和-1我们可以通过一个统一的公式来表示间隔。

上式可以等价于：

$\exists w, b \qquad s.t. \quad y_i(w^Tx_i+b)>0$

$\Leftrightarrow \exists w,b,c \quad s.t. \quad y_i(w^Tx_i+b) \geq c \quad c>0$

上式中c是一个任意的正常数，我们可以将左右两边除以c，得到

$\exists w,b,c \quad s.t. \quad y_i(\frac{w^T}{c} x_i + \frac{b}{c}) \geq 1$

而w和b是我们要求的参数，将其除以一个常数仍然还是参数w和b，因此可以上式写作

$\exists w,b,c \quad s.t. \quad y_i(w^Tx_i+b) \geq 1$

根据的取值，可以得到两个式子：

$w^Tx_i+b \geq 1 \qquad y_i=+1$

$w^Tx_i+b \leq-1 \quad\, y_i=-1$

可以用两个超平面方程来表示

如下图所示。

这样，在超平面之上的样本分类为正样本，在超平面之下的样本分类为负样本，而我们要求的超平面的方程就是两个超平面中间的超平面。最大化正负样本之间的间隔就变为了最大化超平面和之间的距离。

两个超平面之间的距离为：

$width=\frac{|c1-c2|}{||w||}=\frac{|b-1-(b+1)|}{||w||}=\frac{2}{||w||}$

从上图我们也能看出，SVM求解线性模型的时候是只考虑支持向量的，它要求的最大间隔也是支持向量之间的最大间隔，具体量化这个距离是根据支持向量到分隔超平面的距离计算的，需要计算的就是正负支持向量到分隔超平面的距离之和。

比如正例支持向量到分隔超平面的距离就是（w是超平面的法向量）：

$d_+=\frac{|w^Tx_++b|}{||w||}$

负例支持向量到到分隔超平面的距离与正例相同，而，那么分类间隔就是：

$width=\frac{2}{||w||}$

和上面计算的结果是一样的，感觉上面计算的更好理解一点。

现在，我们要求解的问题就变为寻找参数w和b，使得分类间隔最大：

$\mathop{arg \, max}\limits_{w,b}\frac{2}{||w||}$

$s.t. \quad y_i(w^Tx_i+b) \geq 1, \, i=1,2,...,m.$

我们可以将上式改为：

$\mathop{arg \, min}\limits_{w,b} \frac{1}{2}||w||^2$

$s.t. \quad y_i(w^Tx_i+b) \geq 1, \, i=1,2,...,m.$

为什么改成 $\frac{1}{2}||w||^2$ 而不是呢？因为 $\frac{1}{2}||w||^2$ 在后面使用拉格朗日乘子法求解时比较方便，对w求导能得到w的表达式，便于计算。

下面使用一个简单的例子来计算求解最佳参数w，b。

上面是一个简单的二维数据集，只包含三个样本，其中蓝色的是正样本，红色的是负样本。

我们要求解的是：

$\mathop{arg \, min}\limits_{w,b}\frac{1}{2}(w_1^2+w_2^2)$

$s.t. \quad y_i(w^Tx_i+b) \geq 1, \, i=1,2,...,m.$

将上述三个样本点(2，3)、(3，4)、(2，1)代入方程 $\quad y_i(w^Tx_i+b) \geq1$ ，得到：

$2w_1+3w_2+b\geq1$

$3w_1+4w_2+b\geq1$

$-2w_1-w_2-b\geq1$

将上式消去b得到：

$w_2\geq1$

$w_1+3w_2\geq2$

在系数坐标轴中画出两条直线和。

上图中横坐标为x1，纵坐标为x2。

同时满足上述两式的点在图中浅蓝色区域内，我们需要的是在这个区域内寻找使得 $\frac{1}{2}(w_1^2+w_2^2)$ 最小的参数w和b， $\frac{1}{2}(w_1^2+w_2^2)$ 的最小值也就是的最小值，的最小值在坐标系中可以表示为点到原点的距离，我们可以做一个与这个区域范围下方相切的圆心为原点的圆，那么到原点距离最短的点就是切点，这个点的坐标是(0,1)，也就是。

把代入原本的三式可以得到：

$3+b\geq1$ $b\geq-2$

$4+b\geq1$ $\Rightarrow$ $b\geq-3$

$-1-b\geq1$ $b\leq-2$

根据上述三式可以得到：b=-2

最终得到的超平面方程为：

使用该超平面划分数据集，如下图。

上述是直接根据样本代入约束条件得到满足条件的参数范围，并从中寻找使得 $\frac{1}{2}(w_1^2+w_2^2)$ 最小的参数w、b，这样的方法实现比较简单，但它有个问题，就是在高维的时候计算需要的样本也会很多，n维的数据集需要n+1个样本，得到n+1个方程，计算起来就比较麻烦了，而且这种方法计算的极小值点可能是不唯一的。因此我们需要使用其他的方法来求解问题。

2. 拉格朗日乘子法

拉格朗日乘子法是一种多元函数在变量受到条件约束时，求极值的方法，SVM求解的目标正好就属于这里问题，因此可以使用拉格朗日乘子法来求解问题。

给定一个目标函数 $f:R^n \rightarrow R$ ，希望找到 $x\epsilon R^n$ ，在满足约束条件g(x)=0的前提下，使得f(x)有最小值。该约束优化问题记为：

$min\;\;f(x)\\s.t.\quad g(x)=0$

可建立拉格朗日函数：

$L(x, \lambda)=f(x)+\lambda g(x)$

其中 λ 称为拉格朗日乘数。因此，可将原本的约束优化问题转换成等价的无约束优化问题： $\mathop{min}\limits_{x,\lambda}L(x,\lambda)$ 。

分别对待求解参数求偏导，可得：

$\nabla _xL= \frac{\partial L}{\partial x}=\nabla f+\lambda \nabla g = 0$

$\nabla_\lambda L=\frac{\partial L}{\partial \lambda}=g(x)=0$

一般联立方程组可以得到相应的解。

将约束等式 g(x)=0 推广为不等式 g(x)≤0。这个约束优化问题可改：

$min \quad f(x) \\ s.t. \quad\;\, g(x) \leq 0$

同理，其拉格朗日函数为：

$L(x, \lambda)=f(x)+\lambda g(x)$

其约束范围为不等式，因此可等价转换成Karush-Kuhn-Tucker（KKT）条件：

$\nabla_x L=\nabla f+\lambda \nabla g = 0 \\ \quad g(x) \leq 0 \\ \lambda \geq 0\\ g(x)=0$

在此基础上，通过优化方式（如二次规划或SMO）求解其最优解。

3. 对偶问题

现在回到待求解问题上，我们的待求解问题是：

$\mathop{arg \, min}\limits_{w,b} \frac{1}{2}||w||^2$

$s.t. \quad y_i(w^Tx_i+b) \geq 1, \, i=1,2,...,m.$

约束条件是 $\quad y_i(w^Tx_i+b) \geq 1, \, i=1,2,...,m.$ ，需要更改成下式：

$-(y_i(w^Tx_i+b) -1)\leq 0, \, i=1,2,...,m.$

接着引入拉格朗日乘子 $a_i\geq0$ 得到拉格朗日函数：

$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum\limits_{i=1}^m \alpha_i(y_i(w^Tx_i+b)-1)$

令 $L(w,b,\alpha)$ 对w和b的偏导为0：

$\nabla_wL=w-\sum\limits_{i=1}^m\alpha_iy_ix_i=0$

$\nabla_bL=-\sum\limits_{i=1}^m \alpha_iy_i=0$

得到：

$w=\sum\limits_{i=1}^m\alpha _i y_i x_i,\quad \sum\limits_{i=1}^{m}\alpha_iy_i=0$

原式可以写作：

$L(w,b,\alpha)=\frac{1}{2}w^Tw-(w^T\sum\limits_{i=1}^m\alpha_iy_ix_i+b\sum\limits_{i=1}^m\alpha_iy_i-\sum\limits_{i=1}^m\alpha_i)$

将 $w=\sum\limits_{i=1}^m\alpha _i y_i x_i,\quad \sum\limits_{i=1}^{m}\alpha_iy_i=0$ 代入 $L(w,b,\alpha)$ 可以得到：

$\frac{1}{2}(\sum\limits_{i=1}^m\alpha_iy_ix_i)(\sum\limits_{i=1}^m\alpha_iy_ix_i)-(\sum\limits_{i=1}^m\alpha_iy_ix_i)(\sum\limits_{i=1}^m\alpha_iy_ix_i)-b*0+\sum\limits_{i=1}^m\alpha_i$

化简得到：

$L(\alpha)=-\frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum\limits_{i=1}^m\alpha_i$

这样原问题就转换为对偶问题了，得到的关系式是关于变量 $\alpha$ 的，那么对这个式子，我们需要求的是 $\mathop{min}\limits_{\alpha}L(\alpha)$ 还是 $\mathop{max}\limits_\alpha L(\alpha)$ 。这个可以证明最后要求的目标是 $\mathop{max}\limits_\alpha L(\alpha)$ ，也就是：

$\mathop{max}\limits_\alpha (\sum\limits_{i=1}^m\alpha_i - \frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_j y_i y_jx^T_ix_j)$

$s.t. \;\; \sum\limits_{i=1}^{m}\alpha_iy_i=0$

根据KKT条件，可以得到如下的约束条件：

$\alpha_i\geq0,\\ y_if(x_i)\geq 1,\\ \alpha_i(y_if(x_i)-1)=0.$

前面说过在超平面和上的样本就是划分边界上的样本点，也就是支持向量，对应，也就是说支持向量都满足关系式，此时 $\alpha_i>0$ 。而对应其他不在划分边界上的点，，又因为 $\alpha_i(y_if(x_i)-1)=0$ ，所以 $\alpha_i=0$ ，根据上面推导出的 $w=\sum\limits_{i=1}^m\alpha _i y_i x_i$ ，对于这类不在划分边界上的样本点，都有 $\alpha_i=0$ ，样本单项计算的结果为0，该样本对w的值没有贡献，也就是前面说的最终模型只与支持向量有关，其他样本都会被舍弃。如下图所示。

三、SMO高效优化算法

前面我们已经将原问题转换为对偶问题：

$\mathop{max}\limits_\alpha (\sum\limits_{i=1}^m\alpha - \frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_j y_i y_jx^T_ix_j)$

$s.t. \;\; \sum\limits_{i=1}^{m}\alpha_iy_i=0,\; \alpha\geq0,i=1,2,...,m$

对于这个问题，我们该如何求解呢？对于这类二次规划问题的求解方法有很多，其中一种就是SMO算法，SMO表示序列最小优化（Sequential Minimal Optimization）。SMO算法是将大优化问题分解为多个小优化问题来求解的。这些小优化问题往往很容易求解，并且对它们进行顺序求解的结果与将它们作为整体求解的结果是完全一致的，同时总求解的时间还会短很多。

SMO算法的目标是求出一系列的 $\alpha$ 和b，求出了这些 $\alpha$ ，就能根据对应的关系式得到权重w，也就能得到划分数据集的超平面了。

SMO算法的工作原理是：

1. 选取两个需要更新的变量 $\alpha_i$ 和 $\alpha_j$ ；

2. 固定 $\alpha_i$ 和 $\alpha_j$ 以外的参数，求解对偶问题更新 $\alpha_i$ 和 $\alpha_j$ ；

重复执行上述两个步骤直到模型收敛。

仅考虑 $\alpha_i$ 和 $\alpha_j$ 时，对偶问题的约束条件变为：

$\alpha_iy_i+\alpha_jy_j=-\sum\limits_{k\neq i,j}^m\alpha_ky_k, \; \alpha_i \geq 0, \; \alpha_j \geq0$

更新公式为：

$\alpha_2^{new}=\alpha_2^{old}-(E_1-E_2)y_2/ \eta$

$\alpha_1^{new}=\alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$

$\eta=-x_1^Tx_1+2x_1^Tx_2-x_2^Tx_2$

算法流程：

假设最优解为： $\alpha^*=(\alpha_1^*,...,\alpha_n^*)$

可得

$w^*=\sum\limits_{i=1}^m\alpha_i^*y_ix_i$

$b^*=y_j-\sum\limits_{i=1}^{m}\alpha_i^*y_ix_ix_j$

根据w和b就能得到分隔超平面：

四、软间隔

前面的实现都有一个假设：数据100%线性可分，也就是能找到一个划分边界，使得数据集中的样本完全分类正确，这样的模型不允许有数据点处于分隔面的错误一侧。但实际上，一般的数据集都不会是100%线性可分的，都会或多或少存在一些不能正确分类的数据点，因此我们需要引入松弛变量和惩罚系数的概念。

原问题变为：

$\mathop{min}\limits_{w, b, \xi }\frac{1}{2}w^Tw+C\sum\limits_{i=1}^m\xi_i$

$s.t. \quad y_i(w^Tx_i+b)+\xi_i\geq1$

$s.t. \quad \xi_i \geq 0$

其中C是惩罚因子，用于控制“最大化间隔”和“保证大部分点的函数间隔小于1.0”这两个目标的权重。在优化算法的实现代码中，C是一个参数，可以通过调整C来得到不同的结果。

$\xi$ 是松弛变量，作用是给限制条件加上一个值使得等式重新成立。

接着在使用拉格朗日乘子法构造目标函数：

$L(w,b,\xi,\alpha,\mu)=\frac{1}{2}w^Tw+C\sum\limits_{i=1}^m\xi_i-\sum\limits_{i=1}^m\alpha_i(y_i(w^Tx_i+b)+\xi_i-1)-\sum\limits_{i=1}^m\mu_i\xi_i$

将上式分别对w、b、 $\xi$ 求偏导，将得到的结果代入原式，就能得到对偶问题：

$\mathop{max}\limits_\alpha\sum\limits_{i=1}^m\alpha_i-\frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum\limits_{i=1}^m\alpha_i$

$s.t. \quad 0 \leq\alpha_i \geq C$

五、SMO算法实现

1. 简化版SMO算法

SMO算法的完整实现比较复杂，在此之前，我们先实现一个简化版的SMO算法，之后再实现完整版。

完整版SMO算法再外循环确定要优化的最佳alpha对，而简化版会跳过这个步骤，改为从遍历alpha集合中的每一个alpha值，然后在剩下的alpha集合中随机选取另一个alpha，从而构成alpha对。

在实现简化版SMO算法之前需要先定义三个辅助函数，分别用于读取数据集、随机选择alpha值、限制alpha值的范围。

# 读取数据集
def loadDataSet(filename):
    dataSet = []
    labelList = []
    fp = open(filename)
    lines = fp.readlines()
    for line in lines:
        lineSplit = line.strip().split()
        dataSet.append([float(lineSplit[0]), float(lineSplit[1])])
        labelList.append(float(lineSplit[2]))
    return dataSet, labelList 

# 随机选择alpha
def selectJrand(i, m):
    j = i
    # 随机选择一个下标不等于j的alpha的下标
    while j == i:
        j = int(random.uniform(0, m))
    return j

# 限制alpha值的范围
def clipAlpha(aj, H, L):
    if aj > H:
        aj = H
    if L > aj:
        aj = L
    return aj

部分数据集：

读取数据集：

SMO算法伪代码如下：

1. 创建一个alpha向量并初始化为全零；

2. 当迭代次数小于最大迭代次数时：

2.1. 对数据集中的每个数据向量：

2.1.1.判断该数据向量是否需要优化：

2.1.1.1. 随机选择另一个数据向量；

2.1.1.2. 同时优化这两个向量；

2.1.1.3. 如果两个向量都不能被优化，则退出内循环；

2.2. 如果所有向量都没有被优化，增加迭代数目，继续下一次循环；

代码实现如下：

# C：惩罚因子，toler：容错率，maxIter：最大迭代次数
def smoSimple(dataSet, classLabels, C, toler, maxIter):
    dataSet = np.mat(dataSet)
    classLabels = np.mat(classLabels).transpose()
    b = 0
    m, n = dataSet.shape
    alphas = np.mat(np.zeros((m, 1)))
    # 迭代次数
    iter = 0
    while iter < maxIter:
        alphaPairsChanged = 0
        for i in range(m):
            fXi = float(np.multiply(alphas, classLabels).T * (dataSet * dataSet[i, :].T)) + b
            Ei = fXi - classLabels[i]
            # 判断是否要对该alpha值优化（误差超过容错率且alpha不等于0或C）
            if classLabels[i] * Ei < -toler and alphas[i] < C \
                or classLabels[i] * Ei > toler and alphas[i] > 0:
                j = selectJrand(i, m)
                fXj = float(np.multiply(alphas, classLabels).T * (dataSet * dataSet[j, :].T)) + b
                Ej = fXj - classLabels[j]
                # 需要使用copy复制一个数组，不然就是直接将对象赋值过去了，不会重新开辟空间
                alphaIold = alphas[i].copy()
                alphaJold = alphas[j].copy()
                # 计算alpha值的范围，大于C和小于0的值都将调整为C和0
                if classLabels[i] != classLabels[j]:
                    L = max(0, alphas[j] - alphas[i])
                    H = min(C, C + alphas[j] - alphas[i])
                else:
                    L = max(0, alphas[j] + alphas[i] - C)
                    H = min(C, alphas[j] + alphas[i])
                if L == H:
                    print("L == H")
                    continue
                eta = 2. * dataSet[i, :] * dataSet[j, :].T - dataSet[i, :] * dataSet[i, :].T \
                        - dataSet[j, :] * dataSet[j, :].T
                if eta >= 0:
                    print("eta >= 0")
                    continue
                alphas[j] -= classLabels[j] * (Ei - Ej) / eta
                # 限制alpha的值在L到H之间
                alphas[j] = clipAlpha(alphas[j], H, L)
                if abs(alphas[j] - alphaJold) < 0.00001:
                    print("j not moving enough")
                    continue
                alphas[i] += classLabels[j] * classLabels[i] * (alphaJold - alphas[j])
                b1 = b - Ei - classLabels[i] * (alphas[i] - alphaIold) * dataSet[i, :] * dataSet[i, :].T \
                        - classLabels[j] * (alphas[j] - alphaJold) * dataSet[i, :] * dataSet[j, :].T
                b2 = b - Ej - classLabels[i] * (alphas[i] - alphaIold) * dataSet[i, :] * dataSet[j, :].T \
                      - classLabels[j] * (alphas[j] - alphaJold) * dataSet[j, :] * dataSet[j, :].T
                if alphas[i] > 0 and alphas[i] < C:
                    b = b1
                elif alphas[j] > 0 and alphas[j] < C:
                    b = b2
                else:
                    b = (b1 + b2) / 2
                alphaPairsChanged += 1
                print("iter:", iter, "i:", i, 'pairs changed', alphaPairsChanged)
        if alphaPairsChanged == 0:
            iter += 1
        else:
            iter = 0
        print('iteration number:', iter)
    return b, alphas

上述代码首先将数据集dataSet和标签转换为矩阵，便于后续计算。随后进行迭代更新alpha，每次迭代遍历alpha值，对于每一个alpha值，先使用当前的模型 $f(x)=\sum\limits_{i=1}^m\alpha_iy_ix_i^Tx+b$ 计算样本xi的预测结果fXi，这个值是概率值，并不是真实的分类，将预测值与真实值相减得到预测误差Ei。随后进行判断是否要对该当前alpha值进行优化，预测误差超过容错率且alpha值不等于0或C就需要优化。

alpha优化过程为：随机选取另一个alpha $\alpha_j$ ，计算xj样本的预测结果fXj和误差Ej，然后计算alpha值的最大范围，限制alpha值在0-C之内。根据 $\eta$ 计算公式 $\eta=-x_1^Tx_1+2x_1^Tx_2-x_2^Tx_2$ 计算 $\eta$ 值。然后就可以更新 $\alpha_i$ 和 $\alpha_j$ 的值了，首先根据公式 $\alpha_2^{new}=\alpha_2^{old}-(E_1-E_2)y_2/ \eta$ 计算 $\alpha_j$ 的新值，并限制其范围在0-C之内，如果 $\alpha_j$ 更新的值与原值相差小于一个很小的阈值（0.00001），那么说明 $\alpha_j$ 的更新跨度不够大，跳过当前循环。如果大于该阈值，就接根据公式 $\alpha_1^{new}=\alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$ 着更新 $\alpha_i$ ，最后再更新b。

测试：

调用简化版SMO函数计算结果，输出b、大于0的alpha值以及支持向量

dataSet, classLabels = loadDataSet(os.getcwd() + '/svm_data/data/testSet.txt')
b, alphas = smoSimple(dataSet, classLabels, 0.6, 0.001, 40)
print(b)
print(alphas[alphas > 0])
i = 0
for alpha in alphas:
    if alpha > 0.:
        print(dataSet[i], classLabels[i])
    i += 1

运行结果：

2. 完整版SMO算法

完整版SMO算法有多个函数都需要使用一些参数，可以将这些参数和函数封装成一个类，包含算法所要用到的各个数据以及完整版SMO算法所需要的各类函数。

完整版SMO算法在内循环，也就是alpha值的更改和代数运算的步骤与简化版SMO算法是一样的，它们之间的不同在于选择alpha的方式，也就是外循环。

完整版SMO算法在外循环中选择第一个alpha值，其选择alpha值的方式有两种，一种是在数据集上进行单遍扫描，另一种方式是在非边界alpha中实现单遍扫描，非边界alpha指的是那些不等于边界0或C的alpha值。完整版SMO算法在选择alpha值时会交替使用上述两种方法。

SMO算法需要的参数有：数据集：dataSet，类别标签：classLabels，惩罚因子：C，容错率：toler。

定义一个Svm类，包含上述数据对象：

class Svm:
    def __init__(self, dataSet, classLabels, C, toler):
        self.X = dataSet
        self.labels = classLabels
        self.C = C
        self.toler = toler
        self.m = dataSet.shape[0]
        self.n = dataSet.shape[1]
        self.alphas = np.mat(np.zeros((self.m, 1)))
        self.b = 0
        self.eCache = np.mat(np.zeros((self.m, 2)))
        self.w = np.zeros((self.n, 1))

接着需要定义三个辅助函数分别用于：计算误差E、选择alpha值、计算误差E并将误差值存入变量eCache中，这些类都要封装在类Svm中，作为Svm类的成员函数。

    def calcEk(self, k):
        fXk = np.multiply(self.alphas, self.labels).T * \
                (self.X * self.X[k, :].T) + self.b
        Ek = fXk - self.labels[k]
        return Ek
    
    def selectJ(self, i, Ei):
        maxK = -1
        maxDeltaE = 0
        Ej = 0
        self.eCache[i] = [1, int(Ei)]
        validEcacheList = np.nonzero(self.eCache[:, 0].A)[0]
        if len(validEcacheList) > 1:
            for k in validEcacheList:
                if k == i:
                    continue
                Ek = self.calcEk(k)
                deltaE = abs(Ei - Ek)
                if deltaE > maxDeltaE:
                    maxK = k
                    maxDeltaE = deltaE
                    Ej = Ek
            return maxK, Ej
        
        else:
            j = selectJrand(i, self.m)
            Ej = self.calcEk(j)
        return j, Ej
    
    def updataEk(self, k):
        Ek = self.calcEk(k)
        self.eCache[k] = [1, int(Ek)]

定义优化alpha值的函数，其计算步骤与前面实现的简化版SMO函数是一样的，只是不用传入各类参数，而是使用类中的数据成员。

    def innerL(self, i):
        Ei = self.calcEk(i)
        # print(Ei)
        # print(self.labels[i] * Ei)
        if (self.labels[i] * Ei < -self.toler) and (self.alphas[i] < self.C) \
            or (self.labels[i] * Ei > self.toler) and (self.alphas[i] > 0):
            j, Ej = self.selectJ(i, Ei)
            alphaIold = self.alphas[i].copy()
            alphaJold = self.alphas[j].copy()
            if self.labels[i] != self.labels[j]:
                L = max(0, self.alphas[j] - self.alphas[i])
                H = min(self.C, self.C + self.alphas[j] - self.alphas[i])
            else:
                L = max(0, self.alphas[j] + self.alphas[i] - self.C)
                H = min(self.C, self.alphas[j] + self.alphas[i])
            if L == H:
                print("L == H")
                return 0
            eta = 2. * self.X[i, :] * self.X[j, :].T - self.X[i, :] * self.X[i, :].T \
                    - self.X[j, :] * self.X[j, :].T
            if eta >= 0:
                print('eta >= 0')
                return 0
            self.alphas[j] -= self.labels[j] * (Ei - Ej) / eta
            self.alphas[j] = clipAlpha(self.alphas[j], H, L)
            self.updataEk(j)
            if abs(self.alphas[j] - alphaJold) < 0.00001:
                print('j not moving enough')
                return 0
            self.alphas[i] += self.labels[j] * self.labels[i] * (alphaJold - self.alphas[j])
            self.updataEk(i)
            b1 = self.b - Ei - self.labels[i] * (self.alphas[i] - alphaIold) \
                * self.X[i, :] * self.X[i, :].T - self.labels[j] \
                * (self.alphas[j] - alphaJold) * self.X[i, :] * self.X[j, :].T
            b2 = self.b - Ej - self.labels[i] * (self.alphas[i] - alphaIold) \
                * self.X[i, :] * self.X[j, :].T - self.labels[j] \
                * (self.alphas[j] - alphaJold) * self.X[j, :] * self.X[j, :].T
            if self.alphas[i] > 0 and self.alphas[i] < self.C:
                self.b = b1
            elif self.alphas[j] > 0 and self.alphas[j] < self.C:
                self.b = b2
            else:
                self.b = (b1 + b2) / 2
            return 1
        else:
            return 0

完整版SMO算法，同时也是外循环代码，在外循环中选取alpha值，接着调用内循环函数innerL优化alpha值。

    def smoP(self, maxIter, kTup=('lin', 0)):
        iter = 0
        entireSet = True
        alphaPairsChanged = 0
        while iter < maxIter and (alphaPairsChanged > 0 or entireSet):
            alphaPairsChanged = 0
            if entireSet:
                for i in range(self.m):
                    alphaPairsChanged += self.innerL(i)
                    print('fullset, iter:', iter, 'i:', i, 'pairs changed', alphaPairsChanged)
                iter += 1
            else:
                nonBoundIs = np.nonzero((self.alphas.A > 0) * (self.alphas.A < self.C))[0]
                for i in nonBoundIs:
                    alphaPairsChanged += self.innerL(i)
                    print('non-bound, iter:', iter, 'i:', i, 'pairs changed', alphaPairsChanged)
                iter += 1
            if entireSet:
                entireSet = False
            elif alphaPairsChanged == 0:
                entireSet == True
            print('iteration number:', iter)
        # 根据训练得到的alphas计算权重
        for i in range(self.m):
            self.w += np.multiply(self.alphas[i] * self.labels[i], self.X[i, :].T)

该函数会交替使用使用两种选择alpha值的方式，在entireSet为True的时候使用在整个数据集上选取alpha值的方法，在entireSet为False的时候选择在非边界alpha选择alphaz值的方法，在使用过整个数据集选取的方法后就会置entire为False，如果有任意一对alpha值改变，下一次循环就会选择非边界alpha选取方法，如果没有alpha更改，则下一次仍会选择在整个数据集上选取的方法。

smoP函数可以看作是训练函数，调用该函数就能计算得到最佳参数w和b，为了方便，该函数没有直接返回w和b，而是将其保存在类中。

得到训练后的模型参数后就可以输入样本进行预测了，我们需要定义一个分类函数。

    # 对一维数据分类
    def classfy1(self, tdata):
        tdata = np.mat(tdata)
        y_hat = tdata * np.mat(self.w) + b
        if y_hat > 0:
            return 1
        if y_hat < 0:
            return -1
    # 对二维数据分类
    def classfy2(self, tdatas):
        tdatas = np.mat(tdatas)
        y_hat = tdatas @ np.mat(self.w) +b
        y_hat[y_hat > 0] = 1
        y_hat[y_hat < 0] = -1
        return np.array(y_hat)

这里我定义了两个分类函数，一个是对一维数据进行分类（单个样本），另一个是对二维样本进行分类（多个样本）。一维数据直接套公式就能得到结果，然后将大于0的结果分类为1，小于0的结果分类为-1。二维数据需要使用矩阵进行计算，计算后使用y_hat[y_hat > 0]和y_hat[y_hat < 0]分别取大于0和小于0的预测结果，将其分别赋值为1和-1。

单样本分类：

svm = Svm(np.mat(dataSet), np.mat(classLabels).transpose(), 0.6, 0.001)
svm.smoP(40)
zzx = svm.classfy1(dataSet[0])

预测结果：

多样本分类：

svm = Svm(np.mat(dataSet), np.mat(classLabels).transpose(), 0.6, 0.001)
svm.smoP(40)
svm.classfy2(dataSet)

数据集：

3. 可视化决策结果

如果想更直观的观察分类的结果，我们可以使用绘图工具将分类结果可视化。

def plot_data(ax, X, y):
    dataS = np.concatenate((np.array(X), np.array(y).reshape(-1, 1)), axis=1)
    '''绘制数据集的散点图'''
    ax.scatter(dataS[dataS[:, -1] == 1, :][:, 0], dataS[dataS[:, -1] == 1, :][:, 1], s=30, marker='x', label='Positive', c='black')
    ax.scatter(dataS[dataS[:, -1] == -1, :][:, 0], dataS[dataS[:, -1] == -1, :][:, 1], s=30, marker='o', label='Negative', c='y')
    ax.set_xlabel('x1')
    ax.set_ylabel('x2')
    ax.set_title('Example Dataset 1')
    ax.legend()

def plot_boundary(ax, clf, X):
    '''绘制超平面'''
    x_min, x_max = X[:, 0].min() * 1.2, X[:, 0].max() * 1.1
    y_min, y_max = X[:, 1].min() * 1.1, X[:, 1].max() * 1.1
    xx, yy = np.meshgrid(np.linspace(x_min, x_max, 500), np.linspace(y_min, y_max, 500))
    # Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = clf.classfy2(np.c_[xx.ravel(), yy.ravel()])
    print('Z', Z.shape)
    Z = Z.reshape(xx.shape)
    ax.contour(xx, yy, Z)

测试：

测试不同惩罚因子C的分类结果

X_np = dataSet
y = classLabels
for c in [0.6, 25, 50]:
    modela = Svm(np.mat(X_np), np.mat(y).transpose(), c, 0.001)
    modela.smoP(40)
    fig, ax = plt.subplots()
    plot_data(ax, X_np, y)
    plot_boundary(ax, modela, np.array(X_np))
    ax.set_title('SVM Decision Boundary with C = {} (Example Dataset 1)'.format(c))
    plt.show()

运行结果：

不知道为什么这个多次运行有多种结果，正常应该是C越小越松弛，能容许的错误分类数越多，C越大能允许的错误分类越少。这个数据集没有不能被正确分类的样本，所以看不出来不同C值带来的不同结果。

我换了另一个有不能被正确分类的样本的数据集来测试，这个数据集是.mat格式的，好像是二进制文件，我不知道怎么打开，不知道里面是什么数据。一开始运行的时候负样本一个都不显示。

后面看了一下这个数据集的类别标签是0和1，但是上面定义的Svm模型处理的类别标签是-1和1，所以需要将类别标签0改为-1。

raw_data = loadmat(os.getcwd() + '\svm_data\data\ex6data1.mat')
data = pd.DataFrame(raw_data['X'], columns=['X1', 'X2'])
data['y'] = raw_data['y'].flatten()
X_np = data[['X1', 'X2']].values
y = data['y'].values.astype('float')
y[y == 0] = -1
print(y)
c = 20
modela = Svm(np.mat(X_np), np.mat(y).transpose(), c, 0.001)
modela.smoP(40)
fig, ax = plt.subplots()
plot_data(ax, X_np, y)
plot_boundary(ax, modela, np.array(X_np))
ax.set_title('SVM Decision Boundary with C = {} (Example Dataset 1)'.format(c))
plt.show()

运行后虽然负样本出来了，但是分隔线却没了，应该是在坐标轴下面了，多运行几次有时候会出来，但是也是个很差的分隔线，不知道为什么在这个数据集上运行的结果这么差。

没办法我只能用库函数了，用库函数就能正确分类了。

可以看出，C越小就越允许更多的样本被错误分类，第一张图中有一个更靠近负例的正样本，分割线能容许这样的样本存在，因此没有过于要求将这个样本也分类到正例，这样分类的结果就比较好。而下面两张图C比较大，会更倾向于将所有样本都正确分类，得出的结果反而不好。一般数据集中都会存在一些很难正确分类的样本，适当降低C的值效果会比较好。

六、核函数

1. 线性不可分——高维可分

前面计算求解的前提都是数据集线性可分，如果数据集线性不可分，也就不存在一个能正确划分两类样本的分隔超平面，此时应该怎么做？

我们可以将样本从原始特征空间映射到一个更高维的特征空间中，使得样本在这个高维的特征空间中线性可分。

如下图左边的二维特征空间中，找不到一条能准确划分数据集的直线，此时就可以将样本映射到高维空间中，如右图。在右图中就能找到一个能准确划分数据集的平面了。

具体映射方法如下：

对于左图，无法找到一条能准确划分数据集的直线，但可以使用一个圆来划分。

圆的方程为：

变换： $x \rightarrow \phi(x)$ ，将其映射到三维空间，得到：

$\phi: \; R^2 \rightarrow R^3, \; (x_1,x_2) \leftrightarrow (z_1,z_2,z_3):=(x_1^2,\sqrt{2}x_1x_2,x_2^2)$

变换得到的就是三维空间中的一个平面，使用该平面就能准确划分数据集了。

使用核函数后，原问题：

$\mathop{max}\limits_\alpha (\sum\limits_{i=1}^m\alpha - \frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_j y_i y_jx^T_ix_j)$

$s.t. \;\; \sum\limits_{i=1}^{m}\alpha_iy_i=0,\; \alpha\geq0,i=1,2,...,m$

就变换为：

$\mathop{max}\limits_\alpha (\sum\limits_{i=1}^m\alpha - \frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_j y_i y_j\phi (x^T_i)\phi (x_j))$

$s.t. \;\; \sum\limits_{i=1}^{m}\alpha_iy_i=0,\; \alpha\geq0$ ,只以内积的形式出现

线性模型变换为：

$f(x)=w^T\phi(x)+b=\sum\limits_{i=1}^m\alpha_iy_i\phi(x_i)^T\phi(x)+b$

2. 核函数

将原始空间中的向量作为输入向量，并返回特征空间（转换后的数据空间,可能是高维）中向量的点积的函数称为核函数。

核函数定义如下：

$k(x_i,x_j)=\phi(x_i)^T\phi(x_j)$

根据Mercer定理：只要对称函数值所对应的核矩阵半正定, 则该函数可作为核函数。

常用的核函数有：

可视化决策：

def plot_data(X, y, ax):
    '''绘制数据集的散点图'''
    positive = data[data['y'] == 1]
    negative = data[data['y'] == 0]

    ax.scatter(positive['X1'], positive['X2'], s=20, marker='x', label='Positive', c='black')
    ax.scatter(negative['X1'], negative['X2'], s=20, marker='o', label='Negative', c='y')
    ax.set_xlabel('x1')
    ax.set_ylabel('x2')
    ax.legend()

def plot_boundary(ax, clf, X):
    '''绘制决策边界'''
    x_min, x_max = X[:, 0].min() * 1.2, X[:, 0].max() * 1.1
    y_min, y_max = X[:, 1].min() * 1.1, X[:, 1].max() * 1.1
    xx, yy = np.meshgrid(np.linspace(x_min, x_max, 500), np.linspace(y_min, y_max, 500))
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    ax.contour(xx, yy, Z)

测试：

import matplotlib.pyplot as plt
import pandas as pd
from scipy.io import loadmat
from sklearn import svm

raw_data = loadmat(os.getcwd() + '\svm_data\data\ex6data2.mat')
X, y = raw_data['X'], raw_data['y'].ravel()  # 确保 y 是一维数组
data = pd.DataFrame(raw_data['X'], columns=['X1', 'X2'])
data['y'] = y
sigmax = [0.1, 0.2, 0.5]
for sigma in sigmax:
    gamma = np.power(sigma, -2)
    clf = svm.SVC(C=1, kernel='rbf', gamma=gamma)
    model = clf.fit(X, y)
    fig, ax = plt.subplots()
    plot_data(X, y, ax)
    plot_boundary(ax, model, X)
    ax.set_title('SVM Decision Boundary with σ = {}'.format(sigma))
    plt.show()

运行结果：

可以看出，sigma的值越大，绘制出的决策边界就会越平滑，但是不能很好的将两组数据划分出来，划分的精确度比较低，较大大的sigma值，得出的是一种大致的分隔边界，会有比较多的样本被错误分类，容易造成欠拟合的情况。当sigma的值比较小时，模型能很好的将两类样本分隔开，在训练集上的精确度很高，但这样泛化能力就比较差了，在测试集上的预测能力可能就比较差了，也就是产生过拟合的情况。

七、垃圾邮件分类

垃圾邮件数据集包含训练集和测试集，使用loadmat函数分别读取训练集和测试集并从中按对应标签取出特征向量和类别标签，使用径向基核构建svm分类器。

将模型训练好后进行预测，将预测结果与实际标签比较计算错误率。

train_data = loadmat(os.getcwd() + '\svm_data\data\spamTrain.mat')
test_data = loadmat(os.getcwd() + '\svm_data\data\spamTest.mat')
XTrain, yTrain = train_data['X'], train_data['y'].ravel()  # 确保 y 是一维数组
XTest, yTest = test_data['Xtest'], test_data['ytest'].ravel()
sigma = 0.4
gamma = np.power(sigma, -2)
svc = svm.SVC(C=1, kernel='linear', gamma=gamma)
svc.fit(XTrain, yTrain)
y_predict = svc.predict(XTest)
errorRate = sum(y_predict != yTest) / len(yTest)
print('错误率为：', errorRate)

运行结果：

这个错误率有点高，换了些其他的sigma值测试还是这个错误率。可能这个数据集是线性可分的，不用核函数。

将svm分类器的内核改为线性核linear：

svc = svm.SVC(C=1, kernel='linear')

运行结果：

这个错误率就很低了。

八、总结

支持向量机也是一种线性分类模型，它通过寻找不同类别样本之间的最大间隔从而得到最佳的模型参数w和b，模型训练目标是计算得到一个最佳一个超平面，该超平面能够最大化支持向量之间的间隔，模型训练的时候只会考虑支持支持向量。支持向量之间的间隔可以计算得到是 $\frac{2}{||w||}$ ，使用拉格朗日乘子法将其转换到对偶问题，通过求解对偶问题来得到原问题的解。对偶问题的求解一般采用SMO算法来实现，SMO算法的基本思想就是每次选取两个α进行更新，根据对应的公式优化更新α参数，得到最佳的α值后再根据α计算w，再计算b，最后得到训练好的线性模型，使用该模型就能进行预测了。在遇到线性不可分的数据集时，可以使用核函数将样本映射到高维空间中，在高维空间求解。

你可能感兴趣的:(支持向量机,算法,机器学习)

数据结构奇妙旅程之深入解析快速排序山间漫步人生路数据结构排序算法算法
快速排序（QuickSort）是一种高效的排序算法，它使用了分治法的策略来将一个数组排序。其基本思想是选择一个基准元素，通过一趟排序将待排序的数据分割成独立的两部分，其中一部分的所有数据都比基准元素小，另一部分的所有数据都比基准元素大，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。工作原理选择基准：从待排序的序列中选一个元素作为基准（pivo
php 把一个数组分成有n个元素的二维数组的算法风清扬-独孤九剑 php php 算法
一、第一种解法0){$columns_map[$position]++;//这个地方格外注意,$position与$columns比较$position=($position<$columns-1)?++$position:0;$array_length--;}foreach($columns_mapas$val){$newarray[]=array_splice($array,0,$val);}
【算法分析与设计】去除重复字母五敷有你算法分析与设计 java javascript 开发语言算法数据结构
个人主页：五敷有你系列专栏：算法分析与设计⛺️稳中求进，晒太阳题目给你一个字符串s，请你去除字符串中重复的字母，使得每个字母只出现一次。需保证返回结果的字典序最小（要求不能打乱其他字符的相对位置）。示例示例1：输入：s="bcabc"输出："abc"示例2：输入：s="cbacdcbc"输出："acdb"思路贪心+单调栈实现【字符串删除一个字符使其字典序最小的贪心策略】：对于两个长度相同的字符串，
yarn的安装和使用全网最详细教程 zxj19880502 yarn npm
一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn能够保证在不同系统上无差异的工作。三、yarn的
图论记录之最短路迪杰斯特拉 Just right 算法图论 java 开发语言
简述思想这个思想能用一句话来概括，精简到的极致:每次找到一个最短距离的点并更新起点到各个点的最短距离如果要可视化的话，B站搜索Dijksra算法，有视频讲解伪代码写到这里，其实是想整一个动画的，这样效果更好点，但由于种种原因所以就拖一下intdijkstr(){dist[1]=0;其余的点的距离全部初始化为真无穷，不要写成int的最大值迭代n次将不在s中的，且距离最近的点给tsj即先到t，再加上t
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
【数据结构】实验一实现顺序表各种基本运算的算法张鱼·小丸子数据结构实验 c++数据结构
题目：实现顺序表各种基本运算的算法要求：1、建立一个顺序表，输入n个元素并输出；2、查找线性表中的最大元素并输出；3、在线性表的第i个元素前插入一个正整数x；4、删除线性表中的第j个元素；5、将线性表中的元素按升序排列；6、将线性表中的元素就地逆序（只允许用一个暂存单元）；#include#defineSIZE1000usingnamespacestd;typedefstruct{int*a;//
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
Java回溯知识点（含面试大厂题和源码）一成码农 java 面试开发语言
回溯算法是一种通过遍历所有可能的候选解来寻找所有解的算法，如果候选解被确认不是一个解（或至少不是最后一个解），回溯算法会通过在上一步进行一些变化来丢弃这个解，即“回溯”并尝试另一个候选解。回溯法通常用递归方法来实现，在解决排列、组合、选择问题时非常有效。回溯算法的核心要点：路径：也就是已经做出的选择。选择列表：也就是你当前可以做的选择。结束条件：也就是到达决策树底层，无法再做出选择的条件。回溯算法
第七章索引及执行计划，存储引擎执笔为剑 #MySQL运维篇编辑器 mysql
第七章索引及执行计划，存储引擎1，索引及执行计划1，作用：提供类似书目录的作用，目的是优化查询2，所用的种类（根据算法）B树索引Hash索引R树FulltextGIS3，B树基于不同的查找算法分类介绍B-tree：在范围查询方面提供了更好的性能（>showengines;#存储引擎作用在表上，不同的表可能有不同的存储引擎mysql>select@@default_storage_engine;#查
Java面试题：解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用，Java中的多线程是如何实现的，Java垃圾回收机制的基本原理，并讨论常见的垃圾回收算法杰哥在此 Java系列 java jvm 算法面试
Java内存模型与多线程的深入探讨在Java的世界里，内存模型和多线程是开发者必须掌握的核心知识点。它们不仅关系到程序的性能和稳定性，还直接影响到系统的可扩展性和可靠性。下面，我将通过三个面试题，带领大家深入理解Java内存模型、多线程以及并发编程的相关原理和实践。面试题一：请解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用。关注点：JVM内存结构的基本组成堆、栈、方法区的功能和
优化选址问题 | 基于和声搜索算法求解基站选址问题含Matlab源码天天酷科研优化选址问题（LP）matlab 和声搜索算法基站选址问题
目录问题代码问题和声搜索算法（HarmonySearch,HS）是一种模拟音乐创作过程中乐师们凭借自己的记忆，通过反复调整各乐器的音调，直至达到最美和声状态为启发，通过反复调整解向量的各分量来寻求全局最优解的智能优化算法。下面是一个基于和声搜索算法求解基站选址问题的Matlab伪代码框架。请注意，这个框架是一个基本的实现，你可能需要根据你的具体问题和约束条件进行调整和优化。代码%和声搜索算法求解基
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
零基础机器学习(5)之线性回归模型的性能评估一只特立独行猪机器学习机器学习线性回归人工智能
文章目录线性回归模型的性能评估1.举例1-单一特征2.举例2-多特征线性回归模型的性能评估评估线性回归模型时，首先要建立评估的测试数据集（测试集不能与训练集相同），然后选择合适的评估方法，实现对线性回归模型的评估。回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率（确定系数）。1.举例1-单一特征分别对两个模型进行评估，输入的测试集如表所示。面积/（m2）售价/（万元）面积/（m2）售价
15届蓝桥杯备赛(3) sad_liu #sad_liu的刷题记录蓝桥杯职场和发展
文章目录15届蓝桥杯备赛(3)回溯算法组合组合总和III电话号码的字母组合组合总和组合总和II分割回文串子集子集II非递减子序列全排列全排列II贪心算法分发饼干最大子数组和买股票的最佳时机II跳跃游戏15届蓝桥杯备赛(3)提高C++程序的输入输出效率，尤其是在需要大量输入输出操作时。ios_base::sync_with_stdio(false);cin.tie(nullptr);cout.tie
C#杨辉三角形 wenchm c#算法数据结构
目录1.杨辉三角形定义2.用数组实现10层的杨辉三角形3.使用List泛型链表集合设计10层的杨辉三角形（1）代码解释：（2）算法中求余的作用4.使用List泛型链表集合设计10层的等腰的杨辉三角形1.杨辉三角形定义杨辉三角是一个由数字排列成的三角形数表，其最本质的特征是它的两条边都是由数字1组成的，而其余的数则等于它上方的两个数之和。杨辉三角有两种常用的表示形式。2.用数组实现10层的杨辉三角形
代码随想录 day29 第七章回溯算法part05 厦门奥特曼代码随想录算法 golang 剪枝
491.递增子序列46.全排列47.全排列II1.递增子序列关联leetcode491.递增子序列本题和大家刚做过的90.子集II非常像，但又很不一样，很容易掉坑里。思路不能改变原数组顺序不能先排序去重同一层去重树枝上可以有重复元素新元素添加条件大于等于当前次收集数组最右元素value>array[right]题解funcfindSubsequences(nums[]int)[][]int{ret
分布式应用下登录检验解决方案敲键盘的小夜猫分布式 java
优缺点JWT是一个开放标准，它定义了一种用于简洁，自包含的用于通信双方之间以JSON对象的形式安全传递信息的方法。可以使用HMAC算法或者是RSA的公钥密钥对进行签名。说白了就是通过一定规范来生成token，然后可以通过解密算法逆向解密token，这样就可以获取用户信息。生产的token可以包含基本信息，比如id、用户昵称、头像等信息，避免再次查库，可以存储在客户端，不占用服务端的内存资源，在前后
数据结构——单向链表（C语言版） GG Bond.ฺ 数据结构链表 c语言
在数据结构和算法中，链表是一种常见的数据结构，它由一系列节点组成，每个节点包含数据和指向下一个节点的指针。在C语言中，我们可以使用指针来实现单向链表。下面将详细介绍如何用C语言实现单向链表。目录1.定义节点结构体2.初始化链表3.插入节点4.删除节点5.遍历链表6.主函数1.定义节点结构体首先，我们需要定义表示链表节点的结构体。每个节点包含一个数据域和一个指向下一个节点的指针域。typedefst
【牛客】SQL148 筛选昵称规则和试卷规则的作答记录 talle2021 MySQL-刷题 MySQL 数据库
描述现有用户信息表user_info（uid用户ID，nick_name昵称,achievement成就值,level等级,job职业方向,register_time注册时间）：iduidnick_nameachievementleveljobregister_time11001牛客1号19002算法2020-01-0110:00:0021002牛客2号12003算法2020-01-0110:00
C语言之猴子吃桃普通的一个普通猿 C语言算法 c语言算法开发语言
目录一简介二代码实现循环实现递归实现三时空复杂度A.循环实现B.递归实现一简介猴子吃桃问题是一个经典的递推算法题目，它描述如下：一只猴子第一天摘下若干个桃子，当天吃掉了所摘桃子数的一半多一个。之后每天早上，猴子都会吃掉前一天剩下桃子数的一半多一个。直到第十天早上，猴子只剩下了一个桃子。二代码实现使用C语言来解决这个问题，可以通过循环或者递归的方式来计算猴子第一天到底摘了多少个桃子。以下是两种方法的
【数据结构】复杂度计算一只小鹿lu 数据结构
1、时间复杂度1.1概念时间复杂度的定义：在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。一个算法所花费的时间与其中语句的执行次数成正比例，算法中的基本操作的执行次数，为算法的时间复杂度。1.2大O的渐进表示法大O符号（BigOnotation）：是用于描述函数渐进行为的数学符号。推导大O阶方法：1、用常数1取代运行时间中的所有加法常数。2、在修改后的运行次数函数中，只保
代码随想录算法训练营第三十一天|455.分发饼干、376. 摆动序列、 53. 最大子序和 Eugene Tsui 算法
文档讲解：455.分发饼干、376.摆动序列、53.最大子序和题目链接：455.分发饼干、376.摆动序列、53.最大子序和思路：今天开始了贪心的题目，贪心的题目要么比较简单，要么就很难，找不到头绪，今天的题目还是相对简单一些的。第三题中最难想的一个点就是，如果sum=0;i--){if(cookie>=0&&s[cookie]>=g[i]){res++;cookie--;}}returnres;
matlab ICP配准高阶用法——统计每次迭代的配准误差并可视化点云侠 matlab点云工具箱 matlab 开发语言计算机视觉线性代数算法
目录一、概述二、代码实现三、结果展示1、原始点云2、配准结果3、配准误差本文由CSDN点云侠原创，原文链接。如果你不是在点云侠的博客中看到该文章，那么此处便是不要脸的爬虫。一、概述在进行论文写作时，需要做对比实验，来分析改进算法的性能，期间用到了迭代误差分布统计的比较分析，为直观表示配准误差，需要进行可视化
贪心算法问题勒布朗-前端算法贪心算法算法
分发饼干-455假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值gi，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸sj。如果sj>=gi，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。注意：你可以假设胃口值为正。一个小朋友最多只能拥有一块饼干。示
路径优化算法 | 基于蚁群的城市路径优化算法应用及其Matlab实现算法如诗路径优化算法（Path Optimization）算法 matlab 路径优化算法
蚁群算法（AntColonyOptimization,ACO）是一种模拟自然界中蚂蚁觅食行为的优化算法，用于解决如旅行商问题（TSP）等组合优化问题。在蚁群算法中，每只蚂蚁在搜索路径时都会释放信息素，并根据信息素浓度和其他启发式信息来选择下一个节点。随着时间的推移，较短的路径上累积的信息素会更多，从而吸引更多的蚂蚁，最终找到最优路径。在城市路径优化问题中，蚁群算法可以用于找到连接多个城市的最短路径
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla