九方先生

ML算法推导细节06—自适应提升AdaBoost

探究算法细节，深入了解算法原理

自适应提升算法AdaBoost

1. Boosting算法原理

1.1 Boosting原理
1.2 Boosting方法的4个问题

2. AdaBoost二分类问题算法流程*
3. AdaBoost多分类问题
4. AdaBoost回归问题算法流程
5. AdaBoost分类问题的损失函数优化

5.1 AdaBoost算法名称由来
5.2 损失函数的定义
5.3 损失函数的优化

6. AdaBoost算法的正则化
7. AdaBoost 总结

7.1 二分类流程
7.2 AdaBoost的优缺点

8. sklearn.ensemble.AdaBoost

8.1 AdaBoostClassifier和AdaBoostRegressor参数
8.2 弱学习器参数

1. Boosting算法原理

1.1 Boosting原理

首先从训练集用初始权重训练出一个弱学习器1
根据弱学习器1的学习误差率来更新训练样本的权重，使得错误分类的样本权重增加（下一轮更受关注），正确分类的样本权重减小。
基于调整权重后的训练集来训练弱学习器2
重复进行，直到弱学习器个数达到指定数T，将T个弱学习器通过结合策略得到最终的强学习器。

1.2 Boosting方法的4个问题

1）如何计算学习误差率e?

2）如何得到弱学习器权重系数α?

3）如何更新样本权重D?

4）使用何种结合策略？

2. AdaBoost二分类问题算法流程*

输入：

训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}, \quad y_i = \{-1,1\}$
弱分类器算法
迭代次数 $K$

输出：

最终的强分类器 $f (x)$

（1）初始化训练集样本权重

$D_1=\left(w_{11}, w_{12}, ... ,w_{1 m}\right) ; \quad w_{1 i}=\frac{1}{m} ; \quad i=1,2,..., m$

（2）对于 $k = 1, 2, . . ., K$ ，使用具有权重 $D_k$ 的训练集来训练模型，得到弱分类器 $G_k(x)$

（3）计算 $G_k(x)$ 的分类误差率

$e_k=P(G_k(x_i) \neq y_i)=\sum_{i=1}^{m}w_{ki}I(G_k(x_i) \neq y_i)$

$e_k=\sum_{G_k(x_i)\neq y_i}w_{ki} \quad ,\quad \sum_{i=1}^{m}w_{ki}=1$

$G_k(x)$ 在加权训练集上的分类误差率是：误分类样本的权重之和

（4）计算弱分类器 $G_k(x)$ 的权重系数

$\alpha_k=\frac{1}{2}log\frac{1-e_k}{e_k}$

$\alpha_k$ 表示弱分类器 $G_k(x)$ 在最终的强分类器 $f (x)$ 中的重要性。
当 $e_k \leq \frac{1}{2}$ 时， $\alpha_k \geq 0$ ，且 $\alpha_k$ 随着 $e_k$ 的减小而增大。
为什么采用这个权重系数，AdaBoost算法的损失函数优化部分讲。

（5）更新训练集的权重分布

$w_{k+1,i}=\frac{w_{ki}}{Z_k}e^{-\alpha_ky_iG_k(x_i)} \quad i=1,2,...,m$

其中 $Z_k$ 是规范因子：

$Z_k=\sum_{i=1}^{m}w_{ki}e^{-\alpha_ky_iG_k(x_i)}$

即：

$w_{k+1,i}=\frac{w_{ki}e^{-\alpha_ky_iG_k(x_i)}}{\sum_{i=1}^{m}w_{ki}e^{-\alpha_ky_iG_k(x_i)}} \quad i=1,2,...,m$

如果第 $i$ 个样本分类错误，则 $y_iG_k(x_i)<0$ ，导致样本权重在第 $k + 1$ 个弱分类器中增大。
为什么采用样本权重更新方式，AdaBoost算法的损失函数优化部分讲

（6）构建最终的强分类器

$f(x)=sign(\sum_{k=1}^{K}\alpha_kG_k(x))$

$\alpha_k$ 之和并不为1
$f (x)$ 的符号决定实例 $x$ 的分类

3. AdaBoost多分类问题

多分类与二分类相似，主要区别在于弱分类器的系数 $\alpha_k$

AdaBoost SAMME算法，弱分类器的系数为：

$\alpha_k=\frac{1}{2}log\frac{1-e_k}{e_k}+log(R-1)$

其中 R 为类别数，如果是二分类，R=2，与前面一致。

4. AdaBoost回归问题算法流程

AdaBoost回归问题有很多变种，这里以 AdaBoost R2 算法为准。

（1）初始化训练集样本权重

$D_1=\left(w_{11}, w_{12}, ... ,w_{1 m}\right) ; \quad w_{1 i}=\frac{1}{m} ; \quad i=1,2,..., m$

（2）对于 $k = 1, 2, . . ., K$ ，使用具有权重 $D_k$ 的训练集来训练模型，得到弱学习器 $G_k(x)$

（3）计算训练集上的最大误差

$E_k=max|y_i-G_k(x_i)|$

（4）计算每个训练集样本的相对误差

如果是线性误差， $e_{ki}=\frac{|y_i-G_k(x_i)|}{E_k}$
如果是平方误差， $e_{ki}=\frac{(y_i-G_k(x_i))^2}{E_k^2}$
如果是指数误差， $e_{ki}=1-e^{\frac{-|y_i-G_k(x_i)|}{E_k}}$

（5）计算回归误差率

$e_k=\sum_{i=1}^{m}w_{ki}e_{ki}$

（6）计算弱学习器系数

$\alpha_k=\frac{e_k}{1-e_k}$

（7）更新训练集样本权重

$w_{k+1,i}=\frac{w_{ki}}{Z_k}\alpha_k^{1-e_{ki}}$

这里 $Z_k$ 是规范因子

$Z_k=\sum_{i=1}^{m}w_{ki}\alpha_k^{1-e_{ki}}$

即

$w_{k+1,i}=\frac{w_{ki}\alpha_k^{1-e_{ki}}}{\sum_{i=1}^{m}w_{ki}\alpha_k^{1-e_{ki}}}$

（8）构建最终的强学习器

$f(x)=G_k^*(x)$

其中， $G_k^*(x)$ 是 $\frac{1}{\alpha_k}，k=1,2,...,K$ 中位数对应序号 $k^*$ 对应的弱学习器。

结合策略与分类问题不同，取权重中位数对应的弱学习器，作为最终的强学习器

5. AdaBoost分类问题的损失函数优化

5.1 AdaBoost算法名称由来

【李航，统计机器学习 8.2节】
推论：如果存在 $\gamma >0$ ，对所有 $\gamma_k \geq \gamma$ （ $\gamma_k=\frac{1}{2}-e_k$ ），则
$\frac{1}{m}\sum_{i=1}^{m}I(G(x_i)\neq y_i) \leq e^{-2K\gamma^2}$

AdaBoost 算法不需要知道下界 $\gamma$ ，AdaBoost具有适应性，它能适应弱分类器各自的训练误差率，这是它的名称由来（适应的提升）

5.2 损失函数的定义

AdaBoost算法是模型为加法模型，学习算法为前向分步学习算法，损失函数为指数函数的分类问题。

第 $k - 1$ 轮强学习器

$f_{k-1}(x)=\sum_{i=1}^{k-1}\alpha_iG_i(x)$

第 $k$ 轮强学习器

$f_{k}(x)=\sum_{i=1}^{k}\alpha_iG_i(x)$

即

$f_k(x)=f_{k-1}(x)+\alpha_kG_k(x)$

损失函数为指数函数

$\underbrace{\arg \min }_{\alpha, G} \sum_{i=1}^{m} \exp \left(-y_{i} f_{k}(x)\right)$

使用指数函数作为损失函数的原因：可微性，代替0-1损失函数作为优化目标

5.3 损失函数的优化

$\left(\alpha_{k}, G_{k}(x)\right)=\underbrace{\arg \min }_{\alpha, G} \sum_{i=1}^{m} \exp \left[\left(-y_{i}\right)\left(f_{k-1}(x)+\alpha G(x)\right)\right]$

令 $w_{k i}^{\prime}=\exp \left(-y_{i} f_{k-1}(x)\right)$ ，它的值不依赖于 $\alpha, G$ ，因此与最小化无关，仅仅依赖于 $f_{k-1}(x)$ ，随着每一轮的迭代而改变。

损失函数转化为：

$\left(\alpha_{k}, G_{k}(x)\right)=\underbrace{\arg \min }_{\alpha, G} \sum_{i=1}^{m} w_{k i}^{\prime} \exp \left[-y_{i} \alpha G(x)\right]$

（1）首先求 $G_k(x)$ ，可以得到：

$G_{k}(x)=\underbrace{\arg \min }_{G} \sum_{i=1}^{m} w_{k i}^{\prime} I\left(y_{i} \neq G\left(x_{i}\right)\right)$

（2）将 $G_k(x)$ 带入损失函数，并对 $\alpha$ 求导，使其等于0，可以得到

$\alpha_{k}=\frac{1}{2} \log \frac{1-e_{k}}{e_{k}}$

（3）其中， $e_k$ 为前面的分类误差率

$e_{k}=\frac{\sum_{i=1}^{m} w_{k i}^{\prime} I\left(y_{i} \neq G\left(x_{i}\right)\right)}{\sum_{i=1}^{m} w_{k i}^{\prime}}=\sum_{i=1}^{m} w_{k i} I\left(y_{i} \neq G\left(x_{i}\right)\right)$

（4）样本权重更新

由 $f_{k}(x)=f_{k-1}(x)+\alpha_{k} G_{k}(x)$ 和 $\mathbb{w}_{k i}^{\prime}=\exp \left(-y_{i} f_{k-1}(x)\right)$ 可得

$w_{k+1, i}^{\prime}=w_{k i}^{\prime} \exp \left[-y_{i} \alpha_{k} G_{k}(x)\right]$

6. AdaBoost算法的正则化

为了防止过拟合，加入正则化，称为步长（learning rate），定义为 $v$

$f_{k}(x)=f_{k-1}(x)+\nu \alpha_{k} G_{k}(x)$

其中 $0<v\leq 1$ ，同样的训练集，较小的 $v$ 意味着需要更多的弱学习器迭代次数。
通常用步长和最大迭代次数一起来决定算法的拟合效果。

7. AdaBoost 总结

7.1 二分类流程

$w_{1 i}=\frac{1}{m}$

$e_k=\sum_{i=1}^{m}w_{ki}I(G_k(x_i) \neq y_i)$

$\alpha_k=\frac{1}{2}log\frac{1-e_k}{e_k}$

$w_{k+1,i}=\frac{w_{ki}}{Z_k}e^{-\alpha_ky_iG_k(x_i)} ,\quad Z_k=\sum_{i=1}^{m}w_{ki}e^{-\alpha_ky_iG_k(x_i)}$

$f_{k}(x)=f_{k-1}(x)+\nu \alpha_{k} G_{k}(x)$

$f(x)=sign(\sum_{k=1}^{K}\alpha_kG_k(x))$

7.2 AdaBoost的优缺点

使用最广泛的Adaboost弱学习器是决策树和神经网络。
对于决策树，Adaboost分类用了CART分类树，而Adaboost回归用了CART回归树。

Adaboost的主要优点有：

分类精度很高
可以使用各种模型来构建弱学习器，非常灵活
二元分类时，构造简单，结果可理解
不容易发生过拟合

Adaboost的主要缺点有：

对异常样本敏感，异常样本在迭代中可能会获得较高的权重，影响最终强学习器的预测准确性。

8. sklearn.ensemble.AdaBoost

class sklearn.ensemble.AdaBoostClassifier(base_estimator=None,
n_estimators=50, learning_rate=1.0, algorithm=’SAMME.R’, random_state=None)

class sklearn.ensemble.AdaBoostRegressor(base_estimator=None,
n_estimators=50, learning_rate=1.0, loss=’linear’, random_state=None)

8.1 AdaBoostClassifier和AdaBoostRegressor参数

base_estimator：弱学习器，默认CART树
n_estimators：弱学习器个数，太小容易欠拟合，太大容易过拟合，默认50
learning_rate：步长，正则化参数，与n_estimators一起调参
algorithm：可选SAMME和SAMME.R，前者用样本集分类效果作为弱学习器权重，后者用样本集分类的预测概率作为弱学习器权重。SAMME.R速度快。
loss：可选 linear、square、exponential

8.2 弱学习器参数

bdt = AdaBoostClassifier(DecisionTreeClassifier(max_depth=2, 
min_samples_split=20, min_samples_leaf=5),
                         algorithm="SAMME",
                         n_estimators=200, learning_rate=0.8)
bdt.fit(X, y)

弱学习器为决策树时，可调 max_features，max_depth，min_sample_splits等

参考博客：
1. 李航. 统计学习方法第8章提升方法
2. 集成学习之Adaboost算法原理小结
3. sklearn adaboost文档
4. sklearn adaboost源码

你可能感兴趣的:(机器学习总结)

AI入门——AI大模型、深度学习、机器学习总结超级-码力人工智能深度学习机器学习 AIGC
以下是对AI深度学习、机器学习相关核心技术的总结与拓展，结合技术演进逻辑与前沿趋势，以全新视角呈现关键知识点一、深度学习：从感知到认知的技术革命核心突破：自动化特征工程的范式变革深度学习通过多层神经网络架构（如卷积神经网络CNN、循环神经网络RNN），实现了从原始数据中自主学习分层特征的能力。相较于传统机器学习依赖人工设计特征（如SVM的核函数、手工提取的图像边缘特征），其核心优势体现在：层次化抽
机器学习—逻辑回归 60岁的程序猿 1024程序员节机器学习逻辑回归人工智能算法
本内容是博主自学机器学习总结的。由于博主水平有限，内容可能有些许错误。如有错误，请发在评论区。目录1、基础概念1.1、什么是逻辑回归1.2、逻辑回归与线性回归的区别1.3应用场景2、逻辑回归模型2.1、模型定义2.2、Sigmoid函数2.3、决策边界2.4、概率解释3、模型训练3.1、损失函数3.2、梯度下降法3.3、牛顿法3.4、拟牛顿法3.4、正则化3.5、总结4、多分类问题4.1、一对多（
巴尔加瓦算法图解：K最近邻算法 Ashleyxxihf 码上行动：巴尔加瓦算法图解算法近邻算法
巴尔加瓦算法图解：K最近邻算法目录巴尔加瓦算法图解：K最近邻算法判断水果创建推荐系统1.判断相似程度练习回归（预测结果）机器学习总结本章内容❑学习使用K最近邻算法创建分类系统。❑学习特征抽取。❑学习回归，即预测数值，如明天的股价或用户对某部电影的喜欢程度。❑学习K最近邻算法的应用案例和局限性。判断水果判断这个水果是橙子还是柚子呢？一种办法是看它的邻居。来看看离它最近的三个邻居。在这三个邻居中，橙子
大数据开发之机器学习总结（一）闻香识代码大数据机器学习用户画像机器学习大数据算法
大数据开发之机器学习总结1.背景在大数据开发中，数据分析目的一般分为2大类，一个是基于已有数据，提炼出想要的数据汇总信息。一个是基于已有数据使用算法训练出模型，基于模型预测和分析未来的新数据。前者就是很多时候的大数据分析场景，后者则涉及到算法模型，机器学习的范畴。更进一步，人工智能，但机器学习和人工智能，本身其实技术上并没有非常严格的界限。2.机器学习概念机器学习，故名思意，让机器通过学习过去的经
机器学习总结净土_0342
朴素贝叶斯fromsklearnimportdatasetsiris=datasets.load_iris()fromsklearn.naive_bayesimportGaussianNBgnb=GaussianNB()y_pred=gnb.fit(iris.data,iris.target).predict(iris.data)支持向量机fromsklearnimportsvmX=[[0,0],
深度之眼-机器学习总结任嘉平生愿
为期三个月的西瓜书机器学习训练营结束，昨天听完了毕业典礼。我做了如下总结：校长讲话：定目标短时间自己的小团队闭环开环闭环----学习小部分就应用时间和努力的堆积打比赛应用人工智能的课题和方向资料tensorflow实战google深度学习框架和强者学习才会遇强则强博士讲话：1.坚持写博客2.github3.多练习4.英文原版的文章高级课程你目前的弱点是什么5.多读论文
机器学习总结 gridlayout 机器学习人工智能
对以下文章机器学习总结什么是深度学习?最易懂的机器学习入门文章-CSDN博客人工智能和机器学习之间的关系人工智能是一个最宽泛的概念，是一个研究领域，同时也是一个实现目标，而机器学习则是实现这一目标的一类方法。深度学习只是机器学习这一类方法中的一种。机器学习之前的建模方式对比:深度学习改变了很多领域算法的实现模式。在深度学习兴起之前，很多领域建模的思路是投入大量精力做特征工程，将专家对某个领域的“人
2023 Google开发者大会：你了解机器学习的新动向吗？ Mr.Winter` 前沿资讯机器学习人工智能 google 数据挖掘计算机视觉语音识别深度学习
目录0年度科技盛会1生成式机器学习2无障碍游戏体验3跨平台机器学习总结0年度科技盛会2023Google开发者大会在上海浦东举办，为开发者和科技爱好者们带来新技术、新产品、新动向可能很多同学对Google开发者大会还不熟悉，Google开发者大会是Google展示最新产品和平台的年度盛会，为开发者提供丰富的学习资源、实践操作和现场演示，提供与Google专家互动、与其他开发者交流的契机，助力开发提
【机器学习】许多仙机器学习算法支持向量机
说明：机器学习总结0、数据集1、贝叶斯分类器（一）计算题所有样本分为两类（c）：好瓜=是、好瓜=否（1）计算先验概率：P(c)（2）计算每个属性的条件概率：P(xi|c)（3）代入朴素贝叶斯公式：（4）结论：（5）拉普拉斯修正（平滑处理，可选）上面的公式中出现连乘现象，这会导致对于0特别敏感，比如出现一个0，就会直接导致最终结果直接为0其中：N——所有类别数，这里一个有两类，所以N=2Ni——第i
数字验证码识别新思路及对opencv支持向量机机器学习总结快乐的阿常艾念宝机器学习杂谈＆随想机器学习 opencv 支持向量机
验证码识别框架新问题最近遇到了数字验证码识别的新问题。由于这次的数字验证码图片有少量变形和倾斜，所以，可能需要积累更多的原始采样进行学习。但按照4个验证码10个数字的理论随机组合(暗含某种数字仅有少量变化，不然此组合数量还应更大)，也就是要采样差不多一万张图片；对每个图片适当分割后，那就差不多几万张图片了。想要对这些切割后的图片进行手工分类，成为基本数字的训练学习数据，手工工作量不小，也很无趣。当
机器学习总结（lecture 4）算法：逻辑回归Logistic Regression （LR）九方先生机器学习总结
lecture4：逻辑回归LogisticRegression目录lecture4逻辑回归LogisticRegression目录1分类和模型表示2逻辑回归1逻辑回归的代价函数的选取3过拟合和正则化1分类和模型表示先来谈谈二分类问题。课程中先给出了几个例子。邮件是垃圾邮件还是非垃圾邮件；网上交易是的欺骗性（YorN）；肿瘤是恶性的还是良性的。对于这些问题，我们可以通过输出值yϵ{0,1}来表示。注
朴素贝叶斯——机器学习总结古月哥欠666 机器学习算法
朴素贝叶斯基础知识概念优缺点一般过程利用python进行文本分类准备数据训练算法测试算法示例1：使用朴素贝叶斯过滤垃圾邮件一般步骤准备数据：切分文本测试算法：使用朴素贝叶斯进行交叉验证示例2：使用朴素贝叶斯分类器从个人广告中获取区域倾向一般步骤收集数据：导入RSS源RSS源分类器及高频词去除函数分析数据：显示地域相关的用词基础知识概念从简单的概率分类器开始，给出一些假设（条件独立性）学习朴素贝叶斯
Python-Level5-day07am:聚类的基于噪声密度/凝聚层次算法及评价指标及小结,机器学习补充练习,机器学习总结, dpq666dpq666 数据分析人工智能 python
之前讲解了基于中心聚类，采用kmeans聚类算法，下面讲解基于噪声密度聚类算法DBSACN与基于层次聚类算法（Agglomerative）算法2）噪声密度①算法定义噪声密度（Density-BasedSpatialClusteringofApplicationswithNoise，简写DBSCAN）随机选择一个样本做圆心，以事先给定的半径做圆，凡被该圆圈中的样本都被划为与圆心样本同处一个聚类，再以
机器学习总结-基于sklearn包 zaprily 总结 sklearn python 机器学习
流程集成学习数据预处理（特征工程）1.处理负值（oroutlier）标记有问题的特征，但是不删去defgetres1(row):returnlen([xforxinrow.valuesiftype(x)==intandx20,'neg1']=20#平滑处理2.填充缺失值缺失值也可以删去样本或者特征，不过在样本量比较少，特征不明确的情况下不建议直接删除特征。可以直接用fillna补充data['le
《吴恩达机器学习》18 机器学习总结 JockerWong 机器学习吴恩达机器学习课程总结
前言原机器学习最后一章的内容为图片文字识别，但是笔者在看了这一章的课程之后发现其内容可能实际应用性不大，课程讲的ocr识别的方法已经不适合目前主流的算法（目前主流使用CNN——卷积神经网络），故省略这一章节的笔记，改为对整个机器学习课程的总结。一、监督学习算法1、线性回归线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。其表达形式为hθ
吴恩达机器学习总结（三）——神经网络的反向传播 Anaconda_ 机器学习深度学习机器学习神经网络反向传播
神经网络的反向传播在上一篇博客中，利用神经网络对手写数字数据进行分类的结果虽然已经很高了，但和测试样本本身的输出值进行比较还是存在着一定的误差。这时我们需要使用这个误差值来调整神经网络本身，进而改变神经网络的输出值。误差传递我们知道在前向传播中，每个节点向下一层传递的信号所占权重不同。若只有一个节点的信号传递到输出节点，那调整神经网络输出值的方式将简单的多，只需要更新这个节点的权重即可。假如有多个
博客目标与内容 Geng Rain python
目标量化学习总结回测框架Backtrader量化机器人的搭建因子模型技术分析编程学习总结网络编程python基础数学学习总结高数线性代数概率论机器学习总结pytorch神经网络强化学习具体项目总结目标管理app打卡app学习方法总结学习方法
机器学习总结奋斗的海绵机器学习数据分析数据挖掘
（1）x（2）表示训练集中x的第二个训练数据，y(2)表示训练集中的y的第二个训练数据（2）需要注意的是对于一个模型构建出来的函数F，那么我们如何找出该模型的可以更好拟合训练数据的模型参数呢，我们通过使用代价函数（costfunction），通过计算不同的参数得到的预测值y和最终结果y之间的误差大小来最终确定应该如何选择最佳的参数。（3）梯度下降算法被用来寻找使得代价函数J的最小值，从而确定其此时
分布式机器学习总结 Liao_Wenzhe 机器学习与数据挖掘分布式数据研发大数据
目前主流的分布式架构包括：1.基于mapreduce模型的spark-mllib，采用数据分布式+同步的模式，缺点是对异步和模型分布式不支持，但是社区完善。2.基于参数服务器的Multiverso，既可实现数据分布式，也可实现模型分布式，同时支持异步和同步，也可实现大规模的参数更新。3.基于数据流图的tensorflow，可以和1，2结合组成复杂的分布式机器学习网络。4.3种模式的区别：5.各种框
百面机器学习总结笔记（第二章模型评估） Avery123123 算法岗面试笔试准备百面机器学习模型评估
百面机器学习总结笔记（第二章模型评估）百面机器学习总结笔记第二章模型评估第1节评估指标的局限性问题：准确率的局限性问题：精确率与召回率的权衡第2节ROC曲线问题：什么是ROC曲线？问题：如何绘制ROC曲线？问题：如何计算AUC？问题：ROC曲线相比于P-R有什么特点？第3节余弦距离的应用第4节A/B的陷阱第5节模型评估的方法问题：在模型评估中，有哪些主要的评估方法，他们的优缺点是什么？问题：在自助
机器学习总结 Bryant998 人工智能 python
均值、中值和众数从一组数字中我们可以学到什么？在机器学习（和数学）中，通常存在三中我们感兴趣的值：均值（Mean）-平均值中值（Median）-中点值，又称中位数众数（Mode）-最常见的值例如：我们已经登记了13辆车的速度：speed=[99,86,87,88,111,86,103,87,94,78,77,85,86]什么是平均，中间或最常见的速度值？均值均值就是平均值。要计算平均值，请找到所有
若特征的相关系数为0或接近0，就一定可以被过滤吗？相关系数的显著性检验也不一定可靠，如何判断？陈谦机器学习人工智能算法 python
系列文章目录添加机器学习总结提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、若特征的相关系数为0或接近0，就一定可以被过滤吗？二、验证步骤1.通过皮尔逊相关系数得出的结论，名称一样的特征排名靠后，反而在模型训练之后的特征重要性在中间。同样的模型得出的特征排名靠后反而皮尔逊相关系数靠前。总结前言若特征的相关系数为0或接近0，就一定可以被过滤吗？相关系数的显
周志华机器学习总结夜夜0810
Lecture3线性模型基本形式一般向量形式:优点:线性回归广义线性模型对数几率回归由对数几率函数确定$\boldsymbol{\omega}$和$b$线性判别分析(LDA)思想求解多分类任务多分类问题基本形式一般向量形式:f(x)=ωT∗x+bf(\boldsymbol{x})=\boldsymbol{\omega}^T*\boldsymbol{x}+bf(x)=ωT∗x+b优点:非线性模型可由
机器学习总结之——标准化与归一化的区别 Greatpanc 机器学习标准化归一化标准化与归一化过程缺失数据处理
机器学习总结之——标准化与归一化的区别1、标准化简单来说，标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布。公式如下：x′=x−XS（其中X代表样本均值，S代表样本方差）x'=\frac{x-X}{S}（其中X代表样本均值，S代表样本方差）x′=Sx−X（其中X代表样本均值
李宏毅课程-机器学习总结张学义深度学习
李宏毅课程-机器学习总结迁移学习：TransferLearning1.什么是迁移学习呢？2.为什么用迁移学习3.迁移学习的概述3.1第一类迁移学习3.2第二类迁移学习3.3第三类迁移学习3.4第四类迁移学习大佬的笔记较好，拷贝留档学习学习网址https://aistudio.baidu.com/aistudio/education/group/info/1978迁移学习：TransferLearn
机器学习总结一：Bagging之决策树、随机森林原理与案例想考个研机器学习决策树随机森林
机器学习算法总结一、Bagging之决策树、随机森林原理与案例二、boosting之GBDT、XGBT原理推导与案例三、SVM原理推导与案例四、逻辑回归与反欺诈检测案例五、聚类之K-means一、Bagging之决策树、随机森林原理与案例1.决策树1.1简介决策树(DecisionTree)是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据种总结出决策规则，并利用树状图结构呈现这些规则
机器学习总结三：SVM原理推导与案例想考个研机器学习支持向量机算法
机器学习算法总结一、Bagging之决策树、随机森林原理与案例二、boosting之GBDT、XGBT原理推导与案例三、SVM原理推导与案例四、逻辑回归与反欺诈检测案例五、聚类之K-means三、SVM1.原理推导（硬间隔）1.1分类问题代数化**svm原理一句话概括：找出一个最优的直线(或超平面)去隔离不同类别样本数据，达到分类目的。**图1图2图1:找出一条直线将样本完美地划分成两类（注意这样
机器学习总结二：boosting之GBDT、XGBT原理公式推导想考个研机器学习算法 boosting
一、Bagging之决策树、随机森林原理与案例二、boosting之GBDT、XGBT原理推导与案例三、SVM原理推导与案例四、逻辑回归与反欺诈检测案例五、聚类之K-meansBoosting1.简介通过在数据上构建多个弱评估器，汇总所有弱评估器的建模结果，以取得比单个模型更好的分类或回归表现。加法模型，前向分步计算学习。2.基本元素弱评估器f(x)：一般为决策树(cart树)，不同boostin
机器学习总结四：逻辑回归与反欺诈检测案例想考个研机器学习逻辑回归算法
机器学习算法总结一、Bagging之决策树、随机森林原理与案例二、boosting之GBDT、XGBT原理推导与案例三、SVM原理推导与案例四、逻辑回归与反欺诈检测案例五、聚类之K-means四、逻辑回归1、概述由线性回归变化而来的，应用于分类问题中的广义回归算法。组成：回归函数z=w1x1+w2x2+...+wnxn+b=[w1w2wnb]∗[x1x2⋮xn1]=wTXz=w_1x_1+w_2x
吴恩达机器学习总结（二）——Logistic回归和简单的神经网络（附作业） Anaconda_ 机器学习机器学习逻辑回归神经网络
在线性回归模型中，输入和输出一般都是连续的，对于每个输入x，都有一个对应的输出y，模型的定义域和值域都可以是(−∞,+∞)(-∞,+∞)(−∞,+∞)。而对于分类模型来说，其输入可以是连续的，但它的输出是离散的，即只有有限个输出y。例如，其值域可以只有两个值{0,1}，这两个值可以表示对样本的某种分类，高/低、患病/健康、阴性/阳性等，这就是最常见的二分类问题。二、Logistic回归逻辑回归带有
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他