吴恩达机器学习笔记

第一周基本概念

监督学习

分为回归算法和分类算法

无监督学习
事先没有正确答案。例如将客户群分成不同类，混合的声音区分开

先在Octave或者matlab实现，可行，再尝试用Java或者python或者C++重新写出来

只考虑两个变量的线性回归：例如找出一条函数拟合房价的那个例子里面的数据点。
数据集：输入x[i]，输出y[i]，中间函数是h。使用成本函数（即方差误差，这里假设是只有房屋大小这一个变量，所以线性函数是一条直线，用两个参数表示，m是样本的个数）来衡量我们的假设函数的准确性：

假设θ[0]=0，测试θ1。最低点误差为0，刚好就是实际函数h

测试θ[0]和θ[1]。有点类似高中地理的地势图


把上面那张图用立体显示出来就是下面这样，变量x和y就是θ[0]和θ[1]，输出变量z是误差（越小越好）。用梯度下降函数来调整θ[0]和θ[1]，该函数的第二个部分是导数，注意所有θ要同时调整。可以看到原本位置相差不大的两个点，下降的路径却完全不同。这里的梯度下降函数其实就是找局部最低点。

α可以影响下降的步长（导数的值也会影响），下降的方向就是斜率（导数）的方向，越接近局部最低点，导数的值越来越小，步长也越来越小（α保持不变）

矩阵A的转置和逆矩阵，用matlab测试一下

第二周单变量线性回归

线代的向量用来代表样本，下标n代表变量（属性），如年龄，面积等等。上标m代表第几个样本。

**考虑多个变量（多元）**的情况下，即h=θ0+θ1x1+θ2x2+θ3x3+θ4x4+θ5x5+…+θn*xn，其中x0=1，故省略，成本函数（误差）：

梯度下降函数：对比J(θ)可知，是在J(θ)的公式里面去掉平方，乘上x而已
这种梯度下降函数又称为批量梯度下降函数，因为“批量”就表示在画蓝色边框的这个式子里面，每次都得考虑所有的样本进行求和。

特征缩放feature scaling
能够帮助梯度下降函数更快的运行：如下图所示，当考虑两个变量即n=2时，成本函数（误差）画成平面（类似等势图）会是一个椭圆，梯度下降会使θ从边缘从中心点（值最小的点）靠近，但靠近的路径会是来回振荡而缓慢的。通过下图的右边所示，将变量x1和x2通过缩放的方法限制在0到1之间，可以使椭圆变得类似正圆，梯度下降就会很快。

均值归一化：不一定是要0到1，负的0.5到正的0.5，或者-3到3等等都是可以的。但不能是-0.00001到0.00001这么小，也不能是-100到100这么大。如下图所示，可以这样缩放成-0.5到0.5

补充：为什么梯度下降函数中的[a’hua]取值过大会发散
如下图右边所示的A点到B点。由于B点比A点高（函数值大），更加陡峭，故导数更大，导数与α相乘，箭头（步长）就越长了，所以就发散了。而α过小则收敛缓慢，如下图右边绿色的箭头所示。

下面的这种图，是选定一个α后，迭代次数（横轴）和误差值（纵轴）之间的关系。

选取合适的特征值来构建模型
1.例如可以选取房屋的大小这一个值（一元），也可以选取房屋的长和宽这两个值（二元）构建函数。
2.对于下面这个数据集（一元），用一条直线取拟合并不合适；选二次函数取拟合，如蓝色的线条所示，到后面会下降，也不合适；故选取三次函数（右边绿色方框所示，其实采取开根号的幂函数更好），比较合适。但是如果通过如图下方所示，(size)及其平方，立方数量级差距有点大。

其中一个解决办法是令x1=(size)，x2=(size)开根号，x3=(size)开立方根。类似题目如下：

正规方程（标准方程）法（Normal Equation）
梯度下降算法需要一步步迭代找到误差最低值，而我们可以利用所学到的微积分的知识，知道函数最低点就是导数为0的点。正规方程就是用来找到这个点的。如下图所示，构建出矩阵X和向量y，用最下方的红色方框圈出来的那个公式直接求出最终的θ
可以用matlab实现这个公式

梯度下降算法和用正规方程的优缺点对比：梯度下降算法需要不断尝试α以及多次迭代，而正规方程可以一步到位，而且不需要特征缩放。但是正规方程在计算"矩阵X的转置乘以矩阵X"这一步时，时间复杂度是O(n^3)，但n到达一万的时候就会开始有点慢了，而梯度下降算法就算百万级别都可以。而且正规方程在有些复杂的算法中不适用，只能用梯度下降算法。

备注：当矩阵X是不可逆矩阵的时候，可能原因和解决办法如下：

第三周分类问题及逻辑回归

概念

分类问题，y=0成为负类，y=1称为正类。
用线性回归来预测分类问题：例如我们设置阈值为0.5，即意味着函数值大于等于0.5则y=1，否则y=0（函数值等于0.5时也可以是y=0）。
P=（y=1|x;θ）表示在x和参数θ情况下，y=1的概率。

逻辑函数（等同于S型函数(sigmoid)）-> 逻辑回归（以线性回归为基础）
该函数坐标趋向于0，右边趋向于1，x=0时y=0.5，并且左右对称。因此正好可以利用这一点，将自变量换成h=θx，当h>0时预测y=1，h<0时预测y=0

注意g(z)是1./ 不是 1/。

现在tanh函数几乎在任何场景都比sigmoid函数好，除了二分类。如果不知道用哪个，就用relu函数，更快。
决策边界
不一定只使用一次幂，可以使用多阶函数。例如h=θ0+θ1x1+θ2x2+θ3*x1^2+θ4*x22等等。或者可以使用其他更复杂的函数，只要变量个数正确即可，例如只有两个变量就只能是x1和x2。
h=θx画出来的线就是决策边界，由θ决定，而不是数据集决定。
逻辑回归的成本函数（误差）
分情况讨论Cost(θ)，而不再是线性回归里面简单的h(x)-y

上面两种情况可以合二为一，以及向量化实现**（向量化实现，也就是用numpy库，可以避免使用for循环，大幅度提高运行效率，“避免使用for循环”是一个经验法则）：**
（但是有些情况，例如神经网络的正向传播，显式for循环是避免不了的）
逻辑回归的梯度下降函数，以及向量化实现：
matlab里面的句柄（符合：@）！！
https://www.cnblogs.com/Hand-Head/articles/8863702.html
注意掌握两种用法，一种是类似自定义函数 myfunc=@(x)(x^2-2*x+1) 再 myfunc(2)。一种是自定义函数，例如在myfunc.m文件里面定义函数myfunc，然后就可以func1 = @myfunc 再 func1(2)
matlab里面的fminunc函数！！
https://www.cnblogs.com/Hand-Head/articles/8863702.html
1.这个函数的功能是传入一个函数，计算这个函数的最小值，例如可以[a,b,c]=fminunc(@(x)(x^2-2*x+1),-1)，a是x值，b是y值，c表示是否收敛。
2.而在机器学习里面，我们用这个函数来计算成本函数（误差）最小值时的θ值（也就是x值）。可以用第1点提到的用法去用，matlab会调用比梯度下降函数更加高级（速度也快得多）的方法去计算（计算下一步应该用哪个θ值（x值）测试）。
也可以用我们自己定义的梯度下降函数，具体做法是在传入的成本函数的返回值里面，设置第一个返回值是y值，第二个返回值是下图中方框计算出来的值，matlab会自动调整设置α，然后得到下一次要用到的θ值（x值）。然后在fminunc函数里面加个options参数，值为options = optimset('GradObj','on','MaxIter','10')。matlab的函数的参数很多有这种key-value,key-value对应的关系，如这里’GradObj’和’MaxIter’是指定变量，'on’和10是变量的值。
一对多分类
过度拟合(overfit)
1.概念
1)欠拟合 = 高偏差
2)拟合过度 = 高方差
3)泛化即能够推广，拟合新的数据


2.解决办法
1)减少变量（特征值）：手动选择需要保留的变量或者使用模型选择算法
2)正则化：可以保留所有变量
正则化
思路：例如在房价的那个例子里面，高次幂反而会导致过度拟合，于是在成本函数（误差）里面添加对某些θ的惩罚

对除θ0以外的θ都进行惩罚，会有比较好的结果，公式如下。但如何公式里面的λ过大，会导致欠拟合，因此需要合理设置λ

正则化后的成本函数（误差）

正则化后的梯度下降函数

正则化后的正规方程（直接用矩阵算出）

第四周神经网络正向传播

上面用到的回归模型可以看成是只有输入层和输出层的神经网路模型。

神经网络（nn）原理

如果变量很多，例如100个，即使只考虑两两组合，即x1x2，x2x2这种，也有5000个θ，如果考虑三个组合，则上百万个θ
在识别汽车的例子中，5050个像素就2500个变量了，太大。
神经网络模仿生物的神经元，树突接受输入，轴突输出。

第一层是输入层，最后一层是输出层，中间是隐藏层。θ[上标j]表示从j层到j+1层的θ矩阵，如果第二层有4个神经元，第一层有2个神经元，那么θ[上标1]的维度是4（2+1）= 4*3。注意每一层在输出的时候都会加上一个第0个神经元，赋值为1。

神经网络每一层到下一层都是g(z)也就是逻辑回归函数计算的。也可以是ReLU线性整流函数。从第一层到最后的输出层，这样的顺序也称为前向传播。
向量化实现:

例子

异或XOR ：两个全为0或全为1，返回1
异或再取反XNOR : 两个里面有且只有一个为1
1.首先是逻辑或的神经网络例子：h(x)=θ0+θ1x1+θ2x2，当θ=[-10,20,20]时，就是逻辑或，因为只有当x1和x2全为0时，h(x)才为0，其他情况都为1

逻辑与的例子，取θ=[-30,20,20]

如果取θ=[10,-20,-20]，可以表示（NOT x1）AND（NOT x2）
2.将上面三种结合起来，两层神经网络就可以实现XNOR了

用神经网络解决一对多分类
例如有下图中要区分出四种物品，即有四类，则神经网络最后一层（输出层）有四个神经元，例如h=[1,0,0,0]表示对应第一类

第五周反向传播BP算法

学习神经网络
神经网络加了正则化后的代价函数/成本函数（误差）

可以近似看成：
反向传播算法（BP算法） ==》用来求出成本函数的导数
计算过程的简图如下：

详细过程：https://www.coursera.org/learn/machine-learning/supplement/pjdBA/backpropagation-algorithm
参考知乎用户YE Y的回答：https://www.zhihu.com/question/27239198（里面的图简单明了）
通过reshape()将参数存储为矩阵，在函数里面再还原取出来
matlab的reshape（）命令

用法：
梯度检验 grad check
其实就是利用导数的定义，取1e-4，判断下BP算法（也可以检验其他算法）得到的导数值是否正确。记得最后要把梯度检验的代码注释掉，因为梯度检验很慢。
参数值初始化
不能把θ设为全0或者全是相同的一个数，这样算不出来的，要随机赋不同的接近0的值
总结：神经网络的六步

第六周机器学习的应用设计及神经网络步骤

将数据集三七分，七分训练三分测试
如果训练集的误差很小，但测试集的误差很大，说明过拟合
将数据集六二二分，六分训练、二分cv调整（validation set 交叉验证）、二分测试
这里用来调整函数的最高次幂d

高方差variance（过拟合）与高偏差bias（欠拟合）

λ是惩罚高次幂项的那个参数，λ很小时训练集误差最小，拟合度最高，但会导致过拟合；λ很大时训练集误差会比较大，拟合度降低，但能防止过拟合。

我们要找出上图中指出的那个点

高偏差bias的话，增大数据量是没有用的

高方差的话，增大数据量是有用的

六种操作分别可以解决的问题
偏斜类
例如换癌症的人大约占总数的0.5%，因此就算全都预测为0（不患癌症），准确率也有99.5%。
说明：一般令y=1代表概率很少发生的事情，例如患癌症
解决办法：通过计算precision和recall的值来看（准确率和召回率）。如果阈值设置得很高，例如设为h(x)>=0.9才令y=1，则准确率很高，召回率很低，很可能会漏判；如果令阈值为0.3，则准确率很低，召回率（即预测y=0的正确率）很高。

再计算F值，值越高说明算法越好，权衡了准确率和召回率。这个测试应该放在cv test里面

第七周支持向量机SVM

支持向量机SVM
参考！！！：https://blog.csdn.net/u010665216/article/details/78382984

SVM用来替换逻辑回归神经网路模型，可以更好地用于分类问题。SVM不属于神经网路。
SVM就是画一条线（即超平面）将数据集（有几个特征值就有几维，不包括y）分类，既以“准确分类”为前提，又能“忽略异常值”。鲁棒性也就是指健壮性、稳健性、强健性。
核函数也就是kernel函数，用于参考链接中的场景5，把低维空间映射到高维空间。这种线性不可分的情况也称为软间隔。
SVM的工作原理是：确定分类器（即超平面），得到一个凸二次规划的问题 =》使用拉格朗日乘子法可得到其对偶问题 =》使用二次规划求解工具求解对偶问题，需要用到SMO算法。
使用sklearn库来实现SVM，除了指定kernel函数，还可能需要指定C（惩罚系数）和gamma参数
补充：
1）s.t的意思是subject to，也就是在后面这个限制条件下的意思
2）针对不同的问题或者场景选择不同的kernel函数。“不带核函数的SVM”等同于“带线性函数的SVM”（因为这个时候不需要将低维空间映射为高维空间），适用于函数简单，或特征非常多而实例非常少的情况。
3）大多数支持向量机软件包都有内置的支持多分类的功能
4）关于逻辑回归模型和SVM之间选择哪个的问题——下图中的每一句话都很重要！

第八周聚类和降维

聚类
聚类是无监督学习算法中的一种。
K-means算法（K均值算法）
算法流程：

1）给定两个点作为簇类中心（cluster centroids），计算数据点到这两个点的距离，距离短的就属于那个簇，染色。计算误差函数J(θ)
2）计算各个簇的所有数据点的平均值，将平均值作为那个簇的簇类中心。
3）褪色，重复1）和2）步骤。
补充：C[上标4]=3 表示第4个点属于第3个簇。
说明：
1）**误差函数J(θ)**公式如下，会不断减少，不会上升。

2）一开始簇类中心应该随机分布，尝试多次才会有比较好的结果。例如下图中，虽然都是三个簇类中心，但右下角两个明显是由于初始化不好导致了不好的分类。

3）关于一开始要选取多少个簇类中心，也就是簇类中心数K是多少。首先应该根据需求，其次可以尝试多个簇类中心数画出曲线，如果有肘点就选那个点。
降维
降维的动机
1）数据压缩，以节省内存和硬盘空间。例如下图中一个是厘米和英寸冗余，可以降至一维；一个是把3维降到2维。

2）高维数据可视化。例如一个国家的数据有50个特征，如GDP，人均寿命等等，降至二维或者三维，就能将数据画图出来了（可视化顶多画出3D，也就是三维）。问题在于，降维算法只负责减少维数，新产生的特征的意义就必须由我们自己去发现了。
降维的算法——PCA（主成分分析）
1）PCA问题的公式描述
a）PCA 要做的是找到一个方向向量(Vector direction)，当把所有的数据都投射到该向量上时，投射平均均方误差尽可能小。如下图，右边是PCA，找的是点到向量的垂直距离；而左边是线性回归，找的是误差值（y值误差）。

b）PCA问题要将n维数据降至k维，目标是找到向量u(1) ，u(2) ，…，u(k) 使得总的投射误差 Projected Error 最小
2）PCA算法过程
a）零均值化。计算出所有特征的均值，然后令 xj = xj − μj 。如果特征是在不同的数量级上，还需要将其除以标准差 σ2 。

这里x的均值是1.81，y的均值是1.91，于是变成

b）计算协方差矩阵(covariance matrix) sigma Σ
下图中第一个∑是协方差矩阵的意思，第二个Σ是求和的意思。

c）计算协方差矩阵 Σ 的特征向量(eigenvectors):在 Matlab 里我们可以利用奇异值分解(singular value decomposition)来得到特则向量矩阵 U，调用方式为 [U， S，V] = svd(sigma) 。（注：函数返回的矩阵 S 也有用，后续会讲到）

d）如果希望将数据从 n 维降至 k 维，只需要从 U 中选取前 k 个向量，获得一个 n × k 维度的矩阵，用Ureduce 表示，然后通过如下计算获得要求的新特征向量 z(i):

3）重建原始特征
当 x 为 2 维，z 为 1 维，z = UreduceT * x，则相反的方程为: xappox = Ureduce ⋅ z，这时有 xappox ≈ x。
4）如何选择主成分的数量K（也就是压缩后的维数）
首先计算“平均均方误差与训练集方差的比例”，如果结果是1%，那就说明有99%的原本数据的偏差被保留了下来。通常95%到99%是最常用的取值范围。（注：许多数据集都可以在保留大部分差异性的同时大幅降低数据的维度，因为大部分现实数据的许多特征变量都是高度相关的。）
公式如下：

得到K的过程如下：
a) 先令 k = 1，然后进行主要成分分析，获得Ureduce 和z，然后计算比例是否小于1%。
b) 如果不是的话，再令k = 2，如此类推，直到找到可以使得比例小于 1%的最小k 值。
改进：
第a）步中，我们在svd()的时候除了得到U，也得到了S，可以用S来直接计算“平均均方误差与训练集方差的比例”。就不需要算那个麻烦的公式了，直接一点点增大下式中的k即可。

应用建议：
机器学习中的应用：降维，将通过Ureduce得到的z替换原来的x，然后进行机器学习预测。（n是指n维，k是指k维，m是指样本个数，R[上标n]是指n维的数据（有理数集））

正确用法：
1）压缩数据，然后可以用来减少内存/磁盘空间，或者加快算法运行速度。
2）可视化数据（二维或者三维）
错误用法：
1）用于减少过拟合。（应该用正则化）
2）在项目开始时便将PCA考虑进去。（先不用PCA，必要的时候才用）
额外备注
还有一种自编码器autoencoder也可以用于降维（比喻：将一幅图片打上马赛克，还可以重新还原）

第九周异常检测与推荐系统

异常检测
异常检测(Anomaly detection)问题是机器学习算法的一个常见应用。这种算法虽然主要用于无监督学习问题，但从某些角度看，它又类似于一些监督学习问题。
应用场景：飞机检测异常引擎，欺诈检测（用户异常行为），数据中心的计算机是否有异常等等。
高斯分布（即正态分布）
通常如果变量 x 符合高斯分布 x∼N(μ， σ2 )，其中μ为所有数据的平均值，σ2为方差（标准差σ的平方），则其概率密度函数为 :

平均值决定位置，方差决定宽度（半山腰的整个宽度，不是一半）

平均值和方差的计算公式如下：

异常检测算法过程

系统搭建与评价
主要是数据集划分：将已有数据分开，从中选择一部分正常数据作为训练集，剩下的正常数据和异常数据混合构成交叉检验集和测试集。例子如下：

有 10000 台正常引擎的数据，有 20 台异常引擎的数据。 我们这样分配数据:

6000 台正常引擎的数据作为Training set；
2000 台正常引擎和 10 台异常引擎的数据作为CV set
2000 台正常引擎和 10 台异常引擎的数据作为Test set

计算p(x)，对比ε，预测哪些数据点异常。
由于正常的数据比异常的数据多很多，是偏斜类，因此要根据计算出precision和recall来评价。

异常检测与监督学习的对比

异常检测的选择特征
1）最好还是将数据转换成高斯分布，例如：使用对数函数 x = log(x + c)，其中 c为非负常数; 或者 x = xc ，c为 0-1 之间的一个分数。
2）一些异常的数据可能也会有较高的p(x)值，因而被算法认为是正常的。如下图。

解决办法：通常可以通过将一些相关的特征进行组合，例如增加两个特征值的比例这一特征。例如下面这个例子，用 CPU负载与网络通信量的比例作为一个新的特征，当CPU负载很高但网络通信量很低（说明不是网络通信造成的CPU负载高）时，说明出现了异常。

多元高斯分布
所需场景：

算法过程如下，最后跟原来的一样，计算出p(x)后跟ε比较即可：

其中，协方差矩阵对模型的影响（不懂。。。）：

均值μ对中心点的影响：

原始高斯分布模型和多元高斯分布模型对比

a）原高斯分布模型使用较广泛，如果特征之间在某种程度上相互关联，可以通过构造新特征的方法来捕捉这些相关性。
b）如果训练集不是太大，并且没有太多的特征，可以使用多元高斯分布模型。

推荐系统
基于内容的推荐系统
对比着前面笔记记录的梯度下降，成本函数，正则化，可以模仿着构建出来系统。关键是定义。已经有的评分是已知数据，问号的是要预测的值，x看成是输入层（这里代表的含义是电影的类型比例，加上前面的1是偏置值），θ是权重（由我们自己预定义初始值，我猜是这样：第一项是0对应偏置值的权重是0，第二项和第三项我们自己看表说话，这里分别对应用户对于爱情片和动作片的权重）。
到最后会训练出合适的θ参数。

协同过滤
在之前的基于内容的推荐系统中，使用电影的特征，训练出了每一个用户的参数。相反地，如果拥有用户的参数，可以学习得出电影的特征（应该就是把原先的x当作θ，把θ当作x）。
如果既没有用户的参数，也没有电影的特征，可以使用协同过滤算法，同时学习这两者。
协同过滤算法就是在梯度下降的时候，同时最小化x和θ

预测出电影的类型比例x后，可以通过特征向量之间的距离 ∥x(i) − x(j)∥，寻找另一部相似电影 x(j)
细节：加入全新的用户
这里主要是加入一位新的用户，没有为任何电影打过分，如果把该用户的θ都初始化为0，最后算法得到的预测值都是0，没有意义。于是将已经原有的打分全部均值归一化，并且加入均值，这样算法最后得到的结果就是电影的平均分了。

第十周大规模数据的机器学习

1.如果数据集特别大，则首先应该检查这么大规模是否真的必要
2.两种替换批量梯度下降函数的函数（因为数据集很大的时候，每次都遍历所有数据来统计误差，计算量太大了）：
随机梯度下降函数（SGD）

小批量梯度下降 Mini-Batch Gradient Descent
小批量梯度下降算法，介于批量梯度下降算法和随机梯度下降算法之间，每计算常数b次训练实例，更新一次参数 θ
通常会令 b 在 2-1024（2的整数次幂）之间。小批量梯度下降的好处在于可以用向量化的方式来循环b个训练实例，如果用的线性代数函数库能支持平行处理，那算法的总体表现将与随机梯度下降近似。
注意：如果b=m，就是批量梯度下降；如果b=1，就是随机梯度下降SGD

SGD的收敛图像
1.当数据集很大时使用随机梯度下降算法，这时为了检查随机梯度下降的收敛性，我们在每1000次迭代运算后，对最后1000个样本的cost值求一次平均，将这个平均值画到图中。
2.可以令α的值随着迭代次数的增加而减小，这样可以让收敛的时候震荡越来越小。

在线学习机制

映射化简和数据并行 Map Reduce and Data Parallelism
大规模数据下，批量梯度下降函数的代价很大，因此可以用map reduce分流而治的思想。例如求和任务可以分配：

很多高级的线性代数函数库能够利用多核 CPU 的来并行地处理矩阵运算，这也是算法的向量化实现如此重要的缘故(比调用循环快)。

#第十一周 Photo OCR 应用实例:图片文字识别
https://www.cnblogs.com/maxiaodoubao/p/10222391.html
建立一个从图片中识别出文字的系统需要三步：
1.文字侦测(Text detection)——将图片上的文字与其他环境对象分离开来
2.字符切分(Character segmentation)——将文字分割成一个个单一的字符
3.字符分类(Character classification)——确定每一个字符是什么
获得更多数据的几种方法: 1.人工数据合成；2.手动收集、标记数据；3.众包
不要根据直觉，而是使用上限分析判断应该改进哪个模块：

如何知道哪一部分最值得花时间和精力去改善呢?可以使用流程图进行上限分析，流程图中每一部分的输出都是下一部分的输入。

在上限分析中，我们选取一部分，手工提供 100%正确的输出结果，然后看应用的整体效果提升了多少。假使当前总体效果为 72%的正确率：
1) 如果让文字检测部分100%正确，系统的总体效果从 72%提高到了89%。这意味着很值得投入时间精力来提高我们的文字检测的准确度
2) 接着让字符切分结果100%正确，系统总体效果只提升了 1%，这意味着字符切分部分可能已经足够好了
3) 最后让字符分类100%正确，系统总体效果又提升了10%，这意味着我们可能也会应该投入更多的时间和精力到分类这部分

你可能感兴趣的:(机器学习)

ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
零基础机器学习(5)之线性回归模型的性能评估一只特立独行猪机器学习机器学习线性回归人工智能
文章目录线性回归模型的性能评估1.举例1-单一特征2.举例2-多特征线性回归模型的性能评估评估线性回归模型时，首先要建立评估的测试数据集（测试集不能与训练集相同），然后选择合适的评估方法，实现对线性回归模型的评估。回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率（确定系数）。1.举例1-单一特征分别对两个模型进行评估，输入的测试集如表所示。面积/（m2）售价/（万元）面积/（m2）售价
2022-05-14 败者食尘_40a0
本文结构速览：一、SQL题二、机器学习&概率论三、开放性问题01SQL题面试真题：现有一张用户签到表（user_sign_d）,标记用户每日是否签到，表结构如下sign_date:日期user_id:用户IDif_sign:当日是否签到,1表示签到，0表示未签到问题①：请计算截止到当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到的天数）输出表结构如下：user_id:
Android 实现照片抠出人像。 No Promises﹉ android
谢谢阅览、关注！！一、各平台的实现方式：1.Android实现方式：使用图像处理库（如OpenCV）：集成OpenCV库，利用其图像处理功能进行边缘检测和图像分割；使用机器学习模型（如TensorFlowLite）：集成TensorFlowLite和预训练的人像分割模型；使用第三方API服务：利用如百度AI、腾讯AI等提供的在线API进行图像处理。步骤：集成必要的库或API、加载和处理图像、应用抠
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
机器学习是什么三花学编程机器学习
机器学习是什么？机器学习，这一词汇在当今的科技领域中可谓炙手可热，其影响深远，不仅改变了科学研究的方式，也推动了社会的快速发展。那么，机器学习到底是什么呢？机器学习，顾名思义，是机器（通常指计算机）进行学习的过程。这个过程模仿了人类的学习方式，通过经验积累，不断优化自身性能，最终能够在没有人类直接干预的情况下，进行决策或预测。简单来说，机器学习就是让计算机具备从数据中学习并自动改进的能力。机器学习
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
机器学习简介 Dayueban
@我的博客：有味写在前面在年前将要进行靶向代谢组学测定的样品送去公司，随之想想，还有一个半月的时间数据才会回来，那么这段时间是不是可以先学习下分类数据如何分析呢（PS:因为数据是属于分类性质的），所以不久前买的一本书——《机器学习与R语言》稍微系统学一遍，该书为美国的BrettLantz所著，翻译工作由我国学者李洪成、许金炜、李舰完成。学习本书的主要目的是了解机器学习的思想，以及所应用的领域，当然
regression机器学习回归预测模型参考学习后自我总结饮啦冰美式机器学习回归学习
简单来说，就是将样本的特征矩阵映射到样本标签空间。回归分析帮助我们理解在改变一个或多个自变量时，因变量的数值会如何变化。线性模型线性回归用于建立因变量和一个或多个自变量之间的线性关系模型。在线性回归中，假设因变量（被预测变量）与自变量（预测变量）之间存在着线性关系，也就是说，因变量的数值可以通过自变量的线性组合来预测。普通最小二乘线性回归。通过最小化实际观测值与模型预测值之间的误差平方和，可以找到
线性回归和逻辑回归对比学习-含代码和数据 M.D 线性回归逻辑回归学习
线性回归和逻辑回归是两种常见的机器学习算法，它们在一些方面相似，但在其他方面则有明显的不同。以下是它们的对比以及您提供的代码示例：线性回归(LinearRegression)线性回归用于预测连续的数值。这种模型假设自变量和因变量之间存在线性关系。fromsklearn.linear_modelimportLinearRegressionimportmatplotlib.pyplotaspltimp
【Conda】详细讲解程序员不想敲代码啊 conda
Conda1.前言2.关键特点3.Conda命令1.前言Conda是一个流行的包管理器和环境管理器，主要用于Python编程语言，但也可以用来安装、运行和更新包和环境中的任何语言，如R、Ruby、Lua、Scala、Java等。Conda主要是为了方便数据科学、机器学习和类似应用的需要而设计的，但它对任何类型的软件都是适用的。下面，我将概述Conda的几个关键特点和常用命令：2.关键特点环境管理：
机器学习常用框架碧落&凡尘机器学习人工智能
机器学习是人工智能的一个重要分支，它通过让计算机系统利用数据自我学习来改进任务执行的能力。在机器学习领域，有许多成熟的框架被广泛使用，这些框架提供了构建和训练机器学习模型的工具。以下是一些常用的机器学习框架：TensorFlow：由Google开发，是一个开源的软件库，用于数据流编程，广泛应用于各类机器学习任务。它支持分布式计算，能够在大规模数据集上训练复杂的模型。PyTorch：由Faceboo
TensorFlow的介绍和简单案例科学的N次方人工智能 tensorflow 人工智能 python
TensorFlow是一个开源的机器学习框架，由Google开发和维护。它旨在使构建和训练机器学习模型变得更加容易，同时提供高度灵活性和可扩展性。TensorFlow基于数据流图的概念。数据流图是一个由节点和边组成的有向图，其中节点表示操作，边表示数据的流动。TensorFlow通过在数据流图中定义操作和变量来表示机器学习模型，并使用图的计算能力进行训练和推理。TensorFlow支持多种机器学习
基于Python和OpenCV的产品码识别与验证案例 GT开发算法工程师 python opencv 开发语言人工智能计算机视觉
引言：本案例展示了如何使用Python结合OpenCV库来实现产品码的识别与验证。首先，通过图像预处理技术（如灰度化、二值化、降噪等）优化产品码图像，然后利用OpenCV中的模板匹配或机器学习算法（如SVM、神经网络等）来定位并识别产品码。目录原理：代码部分：注意：原理：产品码识别与验证的核心在于图像处理与模式识别技术。首先，通过图像处理技术提取出产品码区域，去除背景干扰，增强产品码的可识别性。然
机器学习中的 K-均值聚类算法及其优缺点刘小董学习心得机器学习
K-均值聚类算法是一种常用的无监督学习算法，用于将样本数据划分为K个不同的簇。其基本思想是通过迭代去优化簇的中心位置，使得每个样本点到所属簇的中心点的距离最小。算法步骤如下：初始化K个簇的中心点，可以随机选择K个样本点作为初始中心点。对于每个样本点，计算其与各个簇中心点的距离，并将其划分到距离最近的簇中。更新每个簇的中心点，将其设为该簇中所有样本点的均值。重复步骤2和步骤3，直到达到停止条件（例如
挑战杯机器学习股票大数据量化分析与预测系统 - python 挑战杯 laafeer python
文章目录0前言1课题背景2实现效果UI界面设计web预测界面RSRS选股界面3软件架构4工具介绍Flask框架MySQL数据库LSTM5最后0前言优质竞赛项目系列，今天要分享的是机器学习股票大数据量化分析与预测系统该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com
阿里云分布式深度学习训练架构Whale qwfys200 Reading 阿里云分布式深度学习
阿里云分布式深度学习训练架构Whale阿里云分布式深度学习训练架构Whale参考文献Whale基于Tensorflow深度学习分布式训练框架|学习笔记Whale:EfficientGiantModelTrainingoverHeterogeneousGPUs阿里云机器学习平台PAI论文高效大模型训练框架Whale入选USENIXATC’22
Python入门指南：从基础到应用袁公白 python 开发语言
引言：在这个数据驱动的时代，Python已经成为最受欢迎的编程语言之一。它以其简洁的语法、强大的库支持和广泛的应用领域而闻名。无论你是编程新手还是希望扩展你的技能集，学习Python都是一个明智的选择。在这篇博客中，我们将深入探讨Python的基础知诀，并通过实际代码示例来展示其在数据分析、网络爬虫和机器学习等领域的应用。I.Python基础知识A.数据类型Python提供了多种内置的数据类型，包
探索机器学习：智能时代的魔法 ChenDuBr 机器学习人工智能机器学习
在智能科技的浪潮中，机器学习如同一股神秘的力量，悄然改变着我们的世界。它不仅仅是编程代码的延伸，更是一种让机器通过“学习”来解决问题的魔法。本文将带你深入了解机器学习的奥秘，探索它的世界，并展望未来的无限可能。机器学习的奇幻定义想象一下，如果你的电脑或手机能够像孩子一样学习新事物，而且速度更快、记忆力更好，那就是机器学习的魅力所在。机器学习让机器通过海量数据的“熏陶”，自我进化，无需人类一步步指导
【机器学习】支持向量机 | 支持向量机理论全梳理对偶问题转换，核方法，软间隔与过拟合 Qodicat 支持向量机机器学习算法
支持向量机走的路和之前介绍的模型不同之前介绍的模型更趋向于进行函数的拟合，而支持向量机属于直接分割得到我们最后要求的内容1支持向量机SVM基本原理当我们要用一条线（或平面、超平面）将不同类别的点分开时，我们希望这条线尽可能地远离最靠近它的点。这些最靠近线的点被称为支持向量。而这条线到最靠近它的点的距离被称为间隔。支持向量机就是要找到一个最大间隔的线（或平面、超平面），这样可以更好地区分不同类别的点
ChatGPT GPT4科研应用、数据分析与机器学习、论文高效写作、AI绘图技术夏日恋雨人工智能 chatgpt 数据分析 AI大数据机器学习 python 数据挖掘
原文链接：ChatGPTGPT4科研应用、数据分析与机器学习、论文高效写作、AI绘图技术https://mp.weixin.qq.com/s?__biz=MzUzNTczMDMxMg==&mid=2247596849&idx=3&sn=111d68286f9752008bca95a5ec575bb3&chksm=fa823ad6cdf5b3c0c446eceb5cf29cccc3161d746bd
深度学习如何入门？ nanshaws yolov5 深度学习
深度学习是机器学习的一个子领域，它基于人工神经网络的研究。入门深度学习可以分为以下几个步骤：基础知识准备：（1）掌握基础数学知识，特别是线性代数、概率论和统计学、微积分。（2）学习编程语言，Python是目前最流行的深度学习语言，因其简洁易学且有大量的库支持。（3）了解机器学习基础，包括监督学习和非监督学习的概念、模型评估与选择等。学习深度学习理论：（1）理解神经网络的基本组成，如神经元、激活函数
机器学习、深度学习、神经网络之间的关系你好，工程师 AI 机器学习
机器学习（MachineLearning）、深度学习（DeepLearning）和神经网络（NeuralNetworks）之间存在密切的关系，它们可以被看作是一种逐层递进的关系。下面简要介绍它们之间的关系：机器学习（MachineLearning）：机器学习是一种人工智能的分支，关注如何通过数据让计算机系统从经验中学习，提高性能。机器学习算法可以分为监督学习、无监督学习、半监督学习和强化学习等不同
随机森林原理&sklearn实现一稻道人机器学习算法&预测模型 Python 随机森林 sklearn 算法
原理定义随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（EnsembleLearning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。随机森林应该是机器学习算法时最先接触到的集成算法，集成学习的家族：Bagging：个体评估器之间不存在强依赖关系，一系列个体学习器可以并行生成。代表算法：随机森林（R
你说什么是机器学习呢 guguguyuan 人工智能
机器学习这个词是让人疑惑的，首先它是英文名称MachineLearning(简称ML)的直译，在计算界Machine一般指计算机。这个名字使用了拟人的手法，说明了这门技术是让机器“学习”的技术。但是计算机是死的，怎么可能像人类一样“学习”呢？传统上如果我们想让计算机工作，我们给它一串指令，然后它遵照这个指令一步步执行下去。有因有果，非常明确。但这样的方式在机器学习中行不通。机器学习根本不接受你输入
【个人学习笔记】概率论与数理统计知识梳理【五】已经是全速前进了概率论
文章目录第五章、大数定律及中心极限定理一、大数定律1.1基本概念1.2弱大数定理二、中心极限定理独立同分布的中心极限定理定理总结第五章、大数定律及中心极限定理写博客比想象中费劲得多，公式得敲好久，所以只得随缘更更了，想写一些机器学习相关的东西，但是强迫症又不允许我把这个扔掉不管，我太难了Orz这一节的内容比较深，即使我是一个喜欢数学的工科生，也没有精力再去深究了，各式各样的大数定律及中心极限定理我
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

吴恩达机器学习笔记