从兮

Python学习-机器学习实战-ch06 支持向量机

支持向量机是我学习机器学习时期最重要的分类算法（没有之一），但是每次都似懂若无的感觉。其中用到了间隔最大化、对偶问题求解等等步骤。其中，支持向量机的学习问题可以形式化为求解凸二次规划问题，有许多最优化算法可以用于这个问题求解。当样本容量很大时，这些方法往往变得非常低效。本章还涉及支持向量机的最优化求解方法。

==================================================================

序列最小最优算法（sequential minimal optimization,SMO）是一种启发式方法，其基本思路是：如果所有变量的解都满足此最优化问题的KKT条件，那么这个最优化问题的解就得到了。因为KKT条件是该优化问题的充分必要条件。否则，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题，这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，因为这会使得原始二次规划问题的目标函数值变得更小。

整个SMO算法包括两个部分：求解两个变量二次规划的解析方法和选择变量的启发式方法。

——李航《统计学习方法》

1.简化版的SMO

原版SMO算法需要在外循环确定要优化的alpha对。简化版的SMO首先在数据集上遍历每一个alpha，然后在剩下的alpha中随机选择另一个alpha，构建alpha对。

+++++++++++++++++++++++++++++++++++++++++

简化版的SMO的伪代码如下：

创建一个alpha向量并将其初始化为0向量

当迭代次数下去最大迭代次数时（外循环）：

对数据集中的每个数据向量（内循环）：

如果该数据向量可以被优化：

随机选择另外一个数据向量

同时优化这两个向量

如果这两个向量都不能被优化，退出内循环

如果所有向量都没被优化，增加迭代数目，继续下一次循环

+++++++++++++++++++++++++++++++++

辅助函数：

from numpy import *

def loadDataSet(filename):
    dataMat=[]
    labelMat=[]
    fr=open(filename)
    for line in fr.readlines():
        lineArr=line.strip().split('\t')
        dataMat.append([float(lineArr[0]),float(lineArr[1])])
        labelMat.append(float(lineArr[2]))
    return dataMat,labelMat

def selectJrand(i,m):
    #i是第一个alpha的下标，m都是alpha的总个数
    j=i
    while(j==i):
        #j是第二个alpha的下标
        #如果j与i相同，则重新选取一个
        j=int(random.uniform(0,m))
    return j

def clipAlpha(aj,H,L):
    #设置上下界限
    if aj>H:
        aj=H
    if L>aj:
        aj=L
    return aj

简化版的SMO算法：

def smoSimple(dataMatIn,classlabels,C,toler,maxIter):
    #函数输入：数据、标签集、常数、容错率、最大循环次数
    dataMatrix=mat(dataMatIn)
    labelMat=mat(classlabels).transpose()
    b=0
    m,n=shape(dataMatrix)
    #m表示样本个数，n表示特征维度
    alphas=mat(zeros((m,1)))
    iter=0
    while(itertoler)and (alphas[i]>0)):
                #如果误差大于容错率或者alpha值不符合约束，则进入优化
                j=selectJrand(i,m)
                #随机选择第二个alpha
                fXj=float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[j,:].T))+b
                #计算第二个alpha的值
                Ej=fXj-float(labelMat[j])
                #得到两个样本对应的两个alpha对应的误差值
                alphaIold=alphas[i].copy()
                alphaJold=alphas[j].copy()
                #存储原本的alpha值
                if(labelMat[i]!=labelMat[j]):
                    L=max(0,alphas[j]-alphas[i])
                    H=min(C,C+alphas[j]-alphas[i])
                else:
                    L=max(0,alphas[j]+alphas[i]-C)
                    H=min(C,alphas[j]+alphas[i])
                if L==H:
                    print('L=H')
                    continue
                #计算上下阈值
                #针对y1,y2的值相同与否，上下值也不同
                eta=2.0*dataMatrix[i,:]*dataMatrix[j,:].T-dataMatrix[i,:]*dataMatrix[i,:].T-dataMatrix[j,:]*dataMatrix[j,:].T
                #最优修改量
                if eta>=0:
                    print('eta>=0')
                    continue
                alphas[j]-=labelMat[j]*(Ei-Ej)/eta
                #更新alpha
                alphas[j]=clipAlpha(alphas[j],H,L)
                if (abs(alphas[j]-alphaJold)<0.00001):
                    print('j is not moving enough')
                    continue
                alphas[i]+=labelMat[j]*labelMat[i]*(alphaJold-alphas[j])
                #由一个alpha确定另一个alpha
                b1=b-Ei-labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[i,:].T-labelMat[j]*(alphas[j]-alphaJold)\
                *dataMatrix[i,:]*dataMatrix[j,:].T
                b2=b-Ei-labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[j,:].T-labelMat[j]*(alphas[j]-alphaJold)\
                *dataMatrix[j,:]*dataMatrix[j,:].T
                #更新两个b值
                if (0alphas[i]):
                    b=b1
                elif (0alphas[j]):
                    b=b2
                else:
                    b=(b1+b2)/2.0
                alphaPairsChanged+=1
                print('iter:%d i:%d,pairs changed %d'%(iter,i,alphaPairsChanged))
        if(alphaPairsChanged==0):
            iter+=1
        else:
            iter=0
        print('iteration number : %d' %iter)
    return b,alphas 
  
 
  
 
   
  补充说明： 
  eta的公式是： 
   
  alpha2的未处理值为： 
   
  alpha的截断处理： 
   
  由alpha2得出alpha1： 
   
   
  子问题有两个变量，一个是违反KKT条件最严重的哪那一个，另一个由约束条件自动确定。 
   
  SMO称选择第一个变量的过程为外层循环。外循环在训练样本中选取违反KKT条件最严重的样本点，并将其对应的变量作为第一个变量。具体地，检验训练样本点是否满足KKT条件，即 
   
  外层循环首先遍历所有满足0到C范围内的alpha，即在间隔边界上的支持向量点，检验它们是否满足KKT条件。如果这些样本点都满足KKT条件，那么遍历整个训练集，检验它们是否满足KKT条件。 
  第2个遍历作为内层循环。假设子外层循环已经找到第1个遍历，则在内层循环找第2个变量。第2个变量的标准是使第2个变量有足够大的变化。alpha2是依赖于E1-E2的。为了加快速度，一种简单的方法是选择alpha2，使E1-E2最大。这是因为alpha1确定的情况下，E1也就确定了。如果E1是正的，选择最小的Ei作为E2。如果E1是负的，则选择最大的Ei作为E2.【《统计学习》】 
   
  【《机器学习实战》】 
  通过一个外循环来选择第一个alpha值，并且在其选择过程中会在一下两种方式之间交替进行： 
  1、在所有数据集上进行单遍扫描 
  2、在非边界alpha中实现单遍扫描，非边界alpha是指那些不等于边界0或C的alpha值。 
  选择完第一个alpha值有后，算法通过一个内循环来选择第二个alpha值，通过最大化步长的方式获得。 
   
   
  class optStruct:
    def __init__(self,dataMatIn,classLabels,C,toler):
        self.X=dataMatIn
        self.labelMat=classLabels
        self.C=C
        self.tol=toler
        self.m=shape(dataMatIn)[0]
        self.alphas=mat(zeros((self.m,1)))
        self.b=0
        self.eCache=mat(zeros((self.m,2)))
        #用来缓存误差
        #是两列的，第一列表示是否有效，第二列是实际的E值

def calcEk(oS,k):
    #用来计算误差的函数
    fXk=float(multiply(oS.alphas,oS.labelMat).T*(oS.X*oS.X[k,:].T))+oS.b
    Ek=fXk-float(oS.labelMat[k])
    return Ek

def selectJ(i,oS,Ei):
    #在确定好第一个alpha的情况下，确定第二个
    #求找最大步长，E1-E2
    maxK=-1
    maxDeltaE=0
    Ej=0
    oS.eCache[i]=[1,Ei]
    #将Ei设置为有效
    validEcacheList=nonzero(oS.eCache[:,0].A)[0]
    #nonzero返回一个列表，这个列表中包含以输入列表为目录的列标识
    #返回非零E值所对应的alpha值
    #因为在eCache的第一列代表是否有效，非0代表有效
     if(len(validEcacheList))>1:
         for k in validEcacheList:
            if k==i:continue
            Ek=calcEk(oS,k)
            deltaE=abs(Ei-Ek)
            if (deltaE>maxDeltaE):
                maxK=k
                maxDeltaE=deltaE
                Ej=Ek
         return maxK,Ej
     else:
         #如果都不满足要求，直接随机选一个
         j=selectJrand(i,oS.m)
         Ej=calcEk(oS,j)
     return j,Ej

def updateEk(oS,k):
     Ek=oS.calcEk(oS,k)
     oS.eCache[k]=[1,Ek]
 
  
 建立一个数据结构，以及辅助函数。在之前简易SMO的基础上进行修改。主要是在选择第二个alpha的函数有了更大修改。 
   
   
  def innerL(i,oS):
    Ei=calcEk(oS,i)
    if((oS.labelMat[i]*Ei<-oS.tol)and (oS.alphas[i]oS.tol)and(oS.alphas[i]>0)):
        j,Ej=selectJ(i,oS,Ei)
        #启发式方法选择第二个alpha
        alphaIold=oS.alphas[i].copy()
        alphaJold=oS.alphas[j].copy()
        if(oS.labelMat[i]!=oS.labelMat[j]):
            L=max(0,oS.alphas[j]-oS.alphas[i])
            H=min(oS.C,oS.C+oS.alphas[j]-oS.alphas[i])
        else:
            L=max(0,oS.alphas[j]+oS.alphas[i]-oS.C)
            H=min(oS.C,oS.alphas[j]+oS.alphas[i])
        if L==H :
            print('L==H')
            return 0
        eta=2.0*oS.X[i,:]*oS.X[j,:].T-oS.X[i,:]*oS.X[j,:].T-oS.X[j,:]*oS.X[j,:].T
        #计算eta
        if eta>=0:
            print('eta>=0')
            return 0
        oS.alphas[j]-=oS.labelMat[j]*(Ei-Ej)/eta
        #计算未经剪辑的最优解
        oS.alphas[j]=clipAlpha(oS.alphas[j],H,L)
        #增加约束条件
        updateEk(oS,j)
        #更新对应的误差值
        if(abs(oS.alphas[j]-alphaJold)<0.00001):
            print('j is not moving enough')
            return 0
        oS.alphas[i]+=oS.labelMat[j]*oS.labelMat[i]*(alphaJold-oS.alphas[j])
        #由第二个alpha求解另一个alpha
        updateEk(oS,i)
        b1=oS.b-Ei-oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.X[i,:]*oS.X[i,:].T\
                   -oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.X[i,:]*oS.X[j,:].T
        b2=oS.b-Ej-oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.X[i,:]*oS.X[j,:].T\
                   -oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.X[j,:]*oS.X[j,:].T
        if(0oS.alphas[i]):
            oS.b=b1
        elif(0oS.alphas[j]):
            oS.b=b2
        else:
            oS.b=(b1+b2)/2.0
        return 1
    else:
        return 0innerL函数是一个更新版，可以与smoSimple函数进行比较。主要有两点不同：1、使用了数据结构了对参数进行传递。2、修改了选择第二alpha的方式。 
   
  接下来是外循环函数代码。 
   
  def smoP(dataMatIn,classLabels,C,toler,maxIter,kTup=('lin',0)):
    oS=optStruct(mat(dataMatIn),mat(classLabels).transpose(),C,toler)
    #初始化数据结构
    iter=0
    entireSet=True
    alphaPairChanged=0
    while(iter0)or(entireSet)):
        #循环条件：1、迭代次数少于最大迭代数；2、遍历着数据集对alpha进行了改变
        alphaPairChanged=0
        if entireSet:
            for i in range(oS.m):
                #oS.m表示数据的个数
                alphaPairChanged+=innerL(i,oS)
                #此处i对数据集进行遍历，InnerL选择第二个alpha，如果有改变返回1，否则返回0
            print('fullSet,iter: %d i: %d, Pairs changed: %d' %(iter,i,alphaPairChanged))
            iter+=1
        else:
            nonBoundIs=nonzero((oS.alphas.A>0)*(oS.alphas.A
 
   
  
 此处entireSet相当于一个开关，要思考什么时候外循环会停止。 
  
 两种条件停止： 
  1、迭代次数大于maxIter 
  2、(alphaPairChanged>0)or(entireSet))的结果为0。即要嘛没有alpha对发生改变，要嘛entireSet等于false。 
  entireSet==False的情况按照if语句来看也有两种，一是对所有的数据执行完遍历。（这里没懂） 
  if entireSet:entireSet=False还有就是对所有的非边界值进行遍历，发生了alpha修改。 
   
  
 
   
  def calcWs(alphas,dataArr,classLabel):
    X=mat(dataArr)
    labelMat=mat(classLabel).transpose()
    #获得数据和类别标签
    m,n=shape(X)
    #m表示数据个数，n表示数据维度
    w=zeros((n,1))
    #初始化权重向量
    for i in range(m):
        w+=multiply(alphas[i]*labelMat[i],X[i,:].T)
    return w
 
  
 通过alpha求解权重w，就可以得到分类器了。 
   
  
 
  2、核技巧 
  对于更为复杂的非线性情况，上述方法是没法解决的。可以通过数据的特征空间变换，从低维度空间映射到高维度空间，使得数据更容易被分类。 
  书中介绍了一种常用的核函数——径向基函数。径向基函数是一个采用向量作为自变量的函数，能够基于向量距离运算输出一个标量。 
  径向基函数的高斯版本： 
  
 
  上式中的Y容易造成误导，并不是表示类别标签，而是其中的x,y表示两个向量。 
   
  def kernelTrans(X,A,kTup):
    #kTup是一个包含核函数信息的元祖
    m,n=shape(X)
    K=mat(zeros((m,1)))
    if kTup[0]=='lin':K=X*A.T
    #最简单的内积方式
    elif kTup[0]=='rbf':
        for j in range(m):
            deltaRow=X[j,:]-A
            K[j]=deltaRow*deltaRow.T
        K=exp(K/(-1*kTup[1]**2))
    else:
        raise NameError('Houston We have a Problem -- That Kernel is not recognized')
    return K 
  
 这是一个核函数转换的函数。 
  kTup包含核函数的信息，第一个参数表示核函数类型，第二个是核函数的参数。上面的函数提供了两种核函数方法。 
  1、内积，计算所有数据集和数据集中的一行之间的展开。 
  2、for循环对每个元素计算高斯函数的值，for循环后，将计算过程应用的整个向量中去。 
  deltaRow表示的是|x-y| 
  
 
   
  class optStruct:
    def __init__(self,dataMatIn,classLabels,C,toler,kTup):
        self.X=dataMatIn
        self.labelMat=classLabels
        self.C=C
        self.tol=toler
        self.m=shape(dataMatIn)[0]
        self.alphas=mat(zeros((self.m,1)))
        self.b=0
        self.eCache=mat(zeros((self.m,2)))
        self.K=mat(zeros((self.m,self.m)))
        for i in range(self.m):
            self.K[:,i]=kernelTrans(self.X,self.X[i,:],kTup) 
  
 相比原本的数据结构，增加了核函数的信息。 
  K是先构造矩阵，然后通过循环将数据进行转换填充进去。 
  然后将InnerL和calcEk函数里头的内积替换成核函数转换后的结果。 
   
  def innerL(i,oS):
    Ei=calcEk(oS,i)
    if((oS.labelMat[i]*Ei<-oS.tol)and (oS.alphas[i]oS.tol)and(oS.alphas[i]>0)):
        j,Ej=selectJ(i,oS,Ei)
        #启发式方法选择第二个alpha
        alphaIold=oS.alphas[i].copy()
        alphaJold=oS.alphas[j].copy()
        if(oS.labelMat[i]!=oS.labelMat[j]):
            L=max(0,oS.alphas[j]-oS.alphas[i])
            H=min(oS.C,oS.C+oS.alphas[j]-oS.alphas[i])
        else:
            L=max(0,oS.alphas[j]+oS.alphas[i]-oS.C)
            H=min(oS.C,oS.alphas[j]+oS.alphas[i])
        if L==H :
            print('L==H')
            return 0
        eta=2.0*oS.K[i,j]-oS.K[i,j].T-oS.K[j,j]
        #计算eta
        if eta>=0:
            print('eta>=0')
            return 0
        oS.alphas[j]-=oS.labelMat[j]*(Ei-Ej)/eta
        #计算未经剪辑的最优解
        oS.alphas[j]=clipAlpha(oS.alphas[j],H,L)
        #增加约束条件
        updateEk(oS,j)
        #更新对应的误差值
        if(abs(oS.alphas[j]-alphaJold)<0.00001):
            print('j is not moving enough')
            return 0
        oS.alphas[i]+=oS.labelMat[j]*oS.labelMat[i]*(alphaJold-oS.alphas[j])
        #由第二个alpha求解另一个alpha
        updateEk(oS,i)
        b1=oS.b-Ei-oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.K[i,i]\
                   -oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.K[i,j]
        b2=oS.b-Ej-oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.K[i,i]\
                   -oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.K[j,j]
        if(0oS.alphas[i]):
            oS.b=b1
        elif(0oS.alphas[j]):
            oS.b=b2
        else:
            oS.b=(b1+b2)/2.0
        return 1
    else:
        return 0

def calcEk(oS,k):
    #用来计算误差的函数
    fXk=float(multiply(oS.alphas,oS.labelMat).T*(oS.K[:,k]))+oS.b
    Ek=fXk-float(oS.labelMat[k])
    return Ek 
  
 编写一个测试用的函数，如下： 
   
  def testRbf(k1=1.3):
    dataArr,labelArr=loadDataSet('testSetRBF.txt')
    b,alphas=smoP(dataArr,labelArr,200,0.0001,10000,('rbf',k1))
    datMat=mat(dataArr)
    labelMat=mat(labelArr).transpose()
    svInd=nonzero(alphas.A>0)[0]
    sVs=datMat[svInd]
    labelSV=labelMat[svInd]
    print('there are %d support vectors' %shape(sVs)[0])
    m,n=shape(datMat)
    errCount=0
    for i in range(m):
        kernelEval=kernelTrans(sVs,datMat[i,:],('rbf',k1))
        predict=kernelEval.T*multiply(labelSV,alphas[svInd])+b
        if sign(predict)!=sign(labelArr[i]):
            errCount+=1
    print('the training error rate is %f' %(float(errCount)/m))
    dataArr,labelArr=loadDataSet('testSetRBF2.txt')
    errCount=0
    datMat=mat(dataArr)
    labelMat=mat(labelArr).transpose()
    m,n=shape(dataArr)
    for i in range(m):
        kernelEval=kernelTrans(sVs,datMat[i,:],('rbf',k1))
        predict=kernelEval.T*multiply(labelSV,alphas[svInd])+b
        if sign(predict)!=sign(labelArr[i]):
            errCount+=1
    print('the training error rate is %f' %(float(errCount)/m)) 
  
 其实，还有一个地方要修改，就是smoP函数的optStruct构造时需要加入kTup参数，同时将函数输入的内积默认给去掉。 
   
  def loadImages(dirName):
    from os import listdir
    hwLabels=[]
    trainingFileList=listdir(dirName)
    m=len(trainingFileList)
    trainingMat=zeros((m,1024))
    for i in range(m):
        fileNameStr=trainingFileList[i]
        fileStr=fileNameStr.split('.')[0]
        classNumStr=int(fileStr.split('_')[0])
        if classNumStr==9:hwLabels.append(-1)
        else:hwLabels.append(1)
        trainingMat[i,:]=img2vector('%s/%s' % (dirName,fileNameStr))
    return trainingMat,hwLabels

def testDigits(kTup=('rbf',10)):
    dataArr,labelArr=loadImages('trainingDigits')
    b,alphas=smoP(dataArr,labelArr,200,0.0001,10000,kTup)
    datMat=mat(dataArr)
    labelMat=mat(labelArr).transpose()
    svInd=nonzero(alphas.A>0)[0]
    sVs=datMat[svInd]
    labelSV=labelMat[svInd]
    print('there are %d support vectors' %shape(sVs)[0])
    m,n=shape(datMat)
    errCount=0
    for i in range(m):
        kernelEval=kernelTrans(sVs,datMat[i,:],kTup)
        predict=kernelEval.T*multiply(labelSV,alphas[svInd])+b
        if sign(predict)!=sign(labelArr[i]):
            errCount+=1
    print('the test error rate is %f' %(float(errCount)/m))
    dataArr,labelArr=loadImages('testDigits')
    errCount=0
    datMat=mat(dataArr)
    labelMat=mat(labelArr).transpose()
    m,n=shape(dataArr)
    for i in range(m):
        kernelEval=kernelTrans(sVs,datMat[i,:],kTup)
        predict=kernelEval.T*multiply(labelSV,alphas[svInd])+b
        if sign(predict)!=sign(labelArr[i]):
            errCount+=1
    print('the test error rate is %f' %(float(errCount)/m)) 
  
 此过程中将数字9作为正类，其余数字作为反类。 
  该测试函数与之前无异，只是多了将图像转换成数据的时间，运算时间较久。

python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
Python学习——Django模型——表关系
关系型数据库最强大之处在于“关系”，表和表之间是有关联的，表之间的关系有一对一，一对多，多对多。1.1一对一学生和档案之间属于一对一，学生表和档案表就是一对一关系，学生表是主表，档案表是从表。从表中有一个外键和学生表关联，并且要求外键取值唯一，对应关键字为：OneToOneField#创建模型classStudent(models.Model):sno=models.CharField(max_l
python学习（六）字典 August________
字典学习如何访问和修改字典中的信息学习如何遍历字典中的数据学习储存字典的列表，存储列表中的字典和存储字典中的字典。理解字典，可以更准确的为各种真实物体建模。一个简单的字典alien_0={'color':'green','points':5}print(alien_0['color'])print(alien_0['points'])green5使用字典字典就是一系列的键-值对，每个键都有一个值相
数据挖掘实战-基于随机森林算法的空气质量污染预测模型艾派森数据挖掘实战合集信息可视化人工智能 python 数据挖掘随机森林
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具4.实验过程
Python学习之旅：进阶阶段（六）数据结构-有序字典（collections.OrderedDict）
在Python编程的进阶学习中，数据结构的选择和运用十分关键。今天，我们要探讨的是有序字典collections.OrderedDict，它是Python标准库collections模块中的一个特殊数据类型，能够让我们在处理字典时保持元素的插入顺序，这在很多场景下都有着独特的优势。下面，让我们一起深入了解有序字典。一、什么是有序字典在Python中，普通字典dict是一种无序的数据结构，它
python学习DAY12打卡星仔编程 python学习打卡学习
启发式算法超参数调整专题2三种启发式算法的示例代码：遗传算法、粒子群算法、退火算法学习优化算法的思路（避免浪费无效时间）今天以自由探索的思路为主，尝试检索资料、视频、文档，用尽可能简短但是清晰的语言看是否能说清楚这三种算法每种算法的实现逻辑，帮助更深入的理解。启发式算法（HeuristicAlgorithm）是一种“经验法则”式的求解方法，用近似、快速、可接受的策略，在合理时间内找到问题的“足够好
python学习DAY4打卡星仔编程 python学习打卡学习
DAY4缺失值的处理题目：初识pandas库与缺失数据的补全pandas是Python里一个强大且广泛使用的开源数据分析与处理库按照示例代码的要求，去尝试补全信贷数据集中的数值型缺失值打开数据（csv文件、excel文件）查看数据（尺寸信息、查看列名等方法）查看空值众数、中位数填补空值利用循环补全所有列的空值完成后在py文件中独立完成一遍，并且利用debugger工具来查看属性（不借助函数显式查看
python学习DAY1打卡星仔编程 python
DAY1变量与格式化字符串今天学习的知识点：1.变量的命名和定义2.学习Trae字节编译器的使用，很方便3.debug工具的使用（pycharm和vscode）4.print函数题目一：变量的认识题目:定义三个变量a,b,c，并分别将整数1,2,3赋值给它们。然后，使用print()函数将每个变量的值单独打印出来，每个值占一行。输入:无输出：123答案：a=1b=2c=3print(a)print
python学习Day5打卡 WYH49 学习
day5离散特征的独热编码先按照示例代码过一遍，然后完成下列题目现在在py文件中一次性处理data数据中所有的连续变量和离散变量1.读取data数据importpandasaspddata=pd.read_csv(r"C:\Users\LENOVO\Desktop\daim\data.csv")fordesribe_featuresindata.columns:ifdata[desribe_fea
python学习DAY22打卡星仔编程 python学习打卡学习
作业：自行学习参考如何使用kaggle平台，写下使用注意点，并对下述比赛提交代码kaggle泰坦尼克号人员生还预测importwarningswarnings.filterwarnings("ignore")#忽略警告信息#数据处理清洗包importpandasaspdimportnumpyasnpimportrandomasrnd#可视化包importseabornassnsimportmatp
python学习心得 lzzy_cgy_20246030833 python 开发语言
我的Python学习之旅：从入门到实践在当今这个技术日新月异的时代，编程已成为一项不可或缺的技能。我选择Python作为我的编程语言，因为它简洁、高效且功能强大。以下是我在Python学习过程中的一些心得体会。初识Python：简洁之美Python的语法简洁明了，非常适合初学者。我被它的简洁性所吸引，它让我能够快速上手，而不需要深陷复杂的语法细节。Python的这种简洁性不仅体现在代码的编写上，更
python学习——PyTorch框架的学习（1）北温凉 python学习 python 学习 pytorch
PyTorch框架的学习简要声明基于小土堆课程视频BiliBili课程资源文章目录PyTorch框架的学习简要声明一、概要二、自定义`Dataset`实现数据加载1.`MyDataset`类的定义数据集初始化获取单个数据样本获取数据集长度2.`MyDataset`的实例化与合并三、使用TensorBoard进行可视化1.引入必要的库2.初始化`SummaryWriter`3.图像数据的处理与可视化
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
Python 线程优先队列 PriorityQueue - Python零基础入门教程猿说编程
目录一.Python线程队列Queue分类二.Python线程优先队列PriorityQueue简介三.Python线程优先队列PriorityQueue函数介绍四.Python线程优先队列PriorityQueue使用五.猜你喜欢零基础Python学习路线推荐:Python学习目录>>Python基础入门在线程队列Queue/线程队列LifoQueue文章中分别介绍了先进先出队列Queue和先进
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？ weixin_39917437
想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭
python学习打卡：DAY 18 推断聚类后簇的类型西西西仓鼠 python训练营 python 学习聚类
@浙大疏锦行聚类后的分析：推断簇的类型知识点回顾：推断簇含义的2个思路：先选特征和后选特征通过可视化图形借助ai定义簇的含义科研逻辑闭环:通过精度判断特征工程价值作业：参考示例代码对心脏病数据集采取类似操作，并且评估特征工程后模型效果有无提升。在聚类分析中，推断簇的类型是理解数据内在结构和业务意义的关键步骤。以下是系统化的推断方法及常见簇类型的总结：一、簇的基本类型明显分离的簇特征：不同簇中任意两
Python学习笔记 cherishSpring python python 学习笔记
目录一、名词解释二、数据类型（变量名无类型，变量值有类型）三、数据类型转换(万物皆可转字符串)四、标识符五、运算符六、字符串扩展七、数据输入八、if语句九、while语句十、for循环语句十一、函数十二、数据容器1、List列表2、tuple元组3、字符串4、序列的常用操作-切片5、set集合6、dict字典7、数据容器相互转换8、通用操作十三、文件编码一、名词解释1、字面量被写在代码中的固定的值
Python从入门到弃坑学习笔记——第一章 Python入门 youweilong033 Python学习学习笔记 python pycharm
笔主趁着假期闲的蛋疼，打算开始学习一下Python，主要是之前就有很多朋友问我Python问题，甚至还有新闻学专业的，但我Python从没学过，还挺尴尬的。打算从现在开坑写一系列的Python学习笔记（flag立下了，乐。毕竟是从零开始学，在我的系列文章中，你将会看到包括但不限于：根据自己的想法命名东西，各种概念胡言乱语，shi一样的排版，某网课上的内容拿来主义。希望大佬们海涵，批评指正，有问题可
【python学习】使用魔塔社区的模型
前言魔塔社区有很多模型，但是怎么使用呢？刚开始学习python，简单的摸索一下一、新建项目1、创建虚拟环境condacreate-npaddlepython=3.102、激活虚拟环境condaactivatepaddle3、新建项目PyCharn新建一个项目，选择已创建的虚拟环境paddle项目新增models目录二、下载模型打开PyCharm的Terminal，命令行前面有一个(paddle)，
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
【无标题】Python学习心得 w180316 python
在当今数字化的时代，编程已经成为不可或缺的技能。我选择学习Python语言，是被它的简洁、高效和广泛的应用场景所吸引。经过一段时间的学习，我有了许多深刻的体会和感悟。Python语言给我的第一印象就是简洁易懂。它的语法相对简单，结构清晰，不像一些其他编程语言那样有复杂的规则和晦涩的符号。这使得初学者能够更快地入门，减少了学习门槛和压力。比如，在Python中，变量的定义不需要明确指定数据类型，而是
Python：列表切片允许“后边小于左边”吗？
目录1问题2测试3欢迎纠错4论文写作/Python学习智能体1问题在Python中，列表切片允许“后边小于左边”吗？2测试在Python中，列表切片允许“后边小于左边”，此时会返回一个空列表，不会报错。例如：lst=[1,2,3,4,5]print(lst[3:1])#输出：[] 这是因为，当切片的结束索引小于开始索引，且步长为默认的1（正数）时，Python认为没有符合条件的元素，
Python vars() 函数：探索对象的内部程序员喵哥 Python python 开发语言
更多Python学习内容：ipengtao.comPython是一门具有强大而灵活的编程语言，可以访问和探索对象的内部属性。vars()函数是Python标准库中的一个强大工具，它可以获取对象的属性和属性值，并以字典的形式返回它们。在本文中，将深入研究vars()函数，探讨它的用途、示例和适用场景。前言在Python中，对象是一切。对象可以是数字、字符串、列表、字典、函数、类实例等等。每个对象都可
python学习试题（选择，问答，代码等）爱莉希雅&&& python 学习开发语言
python选择题（1）以下哪个是合法的Python变量名？[email protected]答案：B（2）表达式True+2的结果是？A.TrueB.3C.2D.TypeError答案：B（3）以下哪个表达式会引发错误？A."1"+"2"B.[1,2]+[3,4]C.(1,2)+(3,4)D.{1,2}+{3,4}答案：D（4）以下哪个是将字符串转换为整数的正确方法？A.str
python 元类的继承_Python学习_13_继承和元类五伤先生 python 元类的继承
继承继承的含义就是子类继承父类的命名空间，子类中可以调用父类的属性和方法，由于命名空间的查找方式，当子类中定义和父类同名属性或者方法时，子类的实例调用的是子类中的属性，而不是父类，这就形成了python中的多态：defSuperClass:defa_method:passdefSubClass(SuperClass):defa_method:passobj=SubClass()obj.a_meth
Python元类基础知识示例深度剖析，从新手小白成为Python编程高手只存在于虚拟的King python 开发语言深度学习学习经验分享计算机网络程序人生
文章目录引言一、什么是元类？二、元类的工作原理三、如何定义元类四、元类的应用场景五、元类的注意事项六、结论关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包+项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、面试资料六、Python兼职渠道引言Python是一种强大的编程语言，一部
Python学习打卡：day09 胜天半子祁厅 Python python 学习开发语言
day9笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day964、字典课后习题65、5类数据容器的总结对比数据容器分类数据容器特点对比66、数据容器的通用操作遍历统计len、max和min转换list(容器)、tuple(容器)、str(容器)、set(容器)排序容器通用功能总览67、拓展——字符串的大小比较ASCII码表字符串比较68、函数
Python学习打卡：day02
day2笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day28、字符串的三种定义方式字符串在Python中有多种定义形式字符串的引号嵌套9、字符串的拼接10、字符串格式化11、格式化的精度控制12、字符串格式化的方式213、对表达式进行格式化14、字符串格式化的课后练习题15、数据输入（input语句）input语句（函数）input语句获取
新手必看的python学习心得 2401_89815407 python 开发语言
Python学习心得：从入门到实践的体会Python作为一门简洁高效的编程语言，其学习过程充满趣味与挑战。通过系统学习与实践，总结出以下关键经验与感悟。Python新手常见代码问题及解决方法Python作为一门易学易用的编程语言，吸引了大量初学者。然而新手在学习过程中常会遇到一些典型问题。以下是常见问题及解决方案。缩进错误Python使用缩进区分代码块，新手容易混淆缩进方式或忘记缩进。正确做法是统
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

Python学习-机器学习实战-ch06 支持向量机

你可能感兴趣的:(python学习)