木马木马mmm

机器学习python之CART、GB、GBDT、XGBoost

一、分类回归树Classification And Regression Trees (CART)
- 1.1 基尼系数
- 1.2 CART分类树
- 1.3 CART回归树
- 1.4 CART的剪枝
二、Boosting
三、提升树Boosting Tree（BT）
四、梯度提升Gradient boosting (GB)
五、梯度提升决策树Gradient boosting Decision Tree(GBDT)
- 5.1 GBDT优缺点
- 5.2 GBDT防止过拟合——正则化
- 5.3 sklearn参数
- 5.4 GBDT应用场景
六、XGBoost
- 6.1 XGBoost的推导过程
- - 6.1.1 目标函数的迭代与泰勒展开
  - 6.1.2 决策树的复杂度
  - 6.1.3 目标函数的最小化
  - 6.1.4 枚举树的结构——贪心法
- 6.2 XGBoost与GBDT比较
- 6.3 XGBoost的优势
- 6.4 XGBoost的参数
- - 6.4.1 通用参数
  - 6.4.2 booster参数
- 6.4.3 学习目标参数

一、分类回归树Classification And Regression Trees (CART)

CART是一种基于二叉树的机器学习算法，其既能处理回归问题，又能处理分类为题。相比于 ID3 和 C4.5 只能用于离散型数据且只能用于分类任务，CART 决策树的适用面要广得多，既可用于离散型数据，又可以处理连续型数据，并且分类和回归任务都能处理。
在分类任务中 CART 算法使用基尼系数作为特征选择的依据，在回归任务中则以均方误差作为特征选择的依据。

1.1 基尼系数

信息增益准测对可取值数目较多的特征有所偏好，增益率准则使用大量的对数计算会非常耗费技术资源。于是引进了基尼系数。基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。
基尼系数定义：在分类问题中，假设有K个类别，第k个类别的概率为 $P_k$ ，则基尼系数的表达式为：
$Gini(p)=\sum_{k=1}^K P_k*(1-P_k)$
对于个给定的样本D,假设有K个类别, 第k个类别的数量为 $C_k$ ，则样本D的基尼系数表达式为：
$Gini(D)=1-\sum_{k=1}^K(\frac{|C_K|}{|D|})^2$
直观的说，Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此，Gini(D)越小，则数据集D的纯度越高。
特别的，对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分，则在特征A的条件下，D的基尼系数表达式为（特征A的基尼系数）:
$\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$
于是，我们在候选特征集合 $\Omega$ 中，选择那个使得划分后基尼系数最小的特征作为最优划分特征，即 $A=argmin_{A\in\Omega}Gini(D,A)$ 。

1.2 CART分类树

对于CART分类树连续值的处理问题，其思想和C4.5是相同的，都是将连续的特征离散化。唯一的区别在于在选择划分点时的度量方式不同，C4.5使用的是信息增益比，而CART分类树使用的是基尼系数。
具体的思路如下，比如m个样本的连续特征A有m个，从小到大排列为a1,a2,…,am，则CART算法取相邻两样本值的平均数，一共取得m-1个划分点，其中第i个划分点 $T_i$ 表示为： $T_i= \frac{a_i+a_{i+1}}{2}$ 。对于这m-1个点，分别计算以该点作为二元分类点时的基尼系数。选择基尼系数最小的点作为该连续特征的二元离散分类点。如取到的基尼系数最小的点为 $a_t$ ，则小于 $a_t$ 的值为类别0，大于 $a_t$ 的值为类别1，这样我们就做到了连续特征的离散化。
要注意的是，与ID3或者C4.5处理离散属性不同的是，如果当前节点为连续属性，则该属性后面还可以参与子节点的产生选择过程。
对于CART分类树离散值的处理问题，采用的思路是不停的二分离散特征。
回忆下ID3或者C4.5，如果某个特征A被选取建立决策树节点，如果它有A1,A2,A3三种类别，我们会在决策树上建立一个三叉的节点。这样导致决策树是多叉树。但是CART分类树使用的方法不同，他采用的是不停的二分，还是这个例子，CART分类树会考虑把A分成{A1}和{A2,A3}, {A2}和{A1,A3},{A3}和{A1,A2}三种情况，找到基尼系数最小的组合，比如{A2}和{A1,A3},然后建立二叉树节点，一个节点是A2对应的样本，另一个节点是{A1,A3}对应的节点。同时，由于这次没有把特征A的取值完全分开，后面我们还有机会在子节点继续选择到特征A来划分A1和A3。这和ID3或者C4.5不同，在ID3或者C4.5的一棵子树中，离散特征只会参与一次节点的建立。

1.3 CART回归树

这里简单介绍一下CART中的回归树。
假设有n个训练样本，损失函数定义为均方误差（注意，这里的损失指的是树中的criterion，类似信息增益，Gini指数；而不是原问题中的loss，原问题既可以是分类也可以是回归）。这n个样本一开始都在根节点，那么此时进入该节点的样本预测值都为该节点的训练均值，所以此时的损失值为：
$L=\frac{[(y_1-\bar{y})^2+...+(y_n-\bar{y})^2]}{n}$
接下来就是遍历每一个特征，然后在特征中寻找一个划分点，让大于和小于该值的样本分别进入左右两个子节点，使得左右两个节点的损失值之和最小。即：
$min(L_{left}+L_{right})=min[\sum_{x_i\in{left}}(y_i- \bar{y} _{left})^2+\sum_{x_i\in{righr}}(y_i-\bar{y}_{right})^2]$
然后按照上述步骤递归下去，直到达到预设的条件为止，比如树的最大深度等。

CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别，它采用的是用最终叶子的均值或者中位数来预测输出结果。

1.4 CART的剪枝

由于决策树算法很容易对训练集过拟合，而导致泛化能力差，为了解决这个问题，我们需要对CART树进行剪枝，来增加决策树的泛化能力。CART采用的办法是后剪枝法，后面的内容主要来分析后剪枝算法。

也就是说，CART树的剪枝算法可以概括为两步，
第一步是从原始决策树生成各种剪枝效果的决策树，
第二步是用交叉验证来检验剪枝后的预测能力，选择泛化预测能力最好的剪枝后的树作为最终的CART树。

那么按照步骤来进行，我们可以分析如下：
对于位于节点t的任意一颗子树 $T_t$ ，如果没有剪枝，它的损失函数是
$_t)=C(T _t )+\alpha∣T _t ∣$
其中 $\alpha$ 是正则化因子， $T_t∣$ 是子树 $T_t$ 的结点的个数， $C(T_t)$ 为训练数据的预测误差。
如果将其剪掉，仅仅保留根节点，则损失是
$_t )=C(T)+\alpha$
这样分析之后，何时才能确定剪枝呢？
我们可以假设当剪枝前和剪枝后的损失函数相同，即T这个树的结点数更少，可以对 $T_t$ 这个子树进行剪枝，直接将其变为树T。有了上面的假设，我们可以得到等式如下
$_t )+\alpha|T_t|=C(T)+\alpha$
解得：
$\alpha=\frac{C(T)-C(T)}{|T_t|-1}$
那么如何选择出最优的CART分类树呢？我们可以采用交叉验证策略，上面我们计算出了每个子树是否剪枝的阈值 $\alpha$ ，如果我们把所有的节点是否剪枝的值 $\alpha$ 都计算出来，然后分别针对不同的 $\alpha$ 所对应的剪枝后的最优子树做交叉验证。这样就可以选择一个最好的 $\alpha$ ，有了这个 $\alpha$ ，我们就可以用对应的最优子树作为最终结果。
参考文章

二、Boosting

Boosting是一族可将弱学习器提升为强学习器的算法。这族算法的工作机制类似：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值M。最终将这M个学习器进行加权结合。

三、提升树Boosting Tree（BT）

基学习器是CART回归树
提升树算法：

初始化 $F_0(x)=0$
对 $m = 1, 2, \dots, M$
（1）计算残差
$r_{mi}=y_i-F_{m-1}(x), i=1, 2, …,N$
(2) 拟合残差 $r_{mi}$ 学习一个回归树，得到 $h_m(x)$

假设我们前一轮迭代得到的强学习器是 $F_{t-1}(x)$
损失函数是 $L(y,F_{t-1}(x))$
我们本轮迭代的目标是找到一个弱学习器 $h_t(x)$
最小化本轮的损失
$L(y,F_t(x))=L(y,F_{t-1}(x)+h_t(x))$
当采用平方损失函数时
$L(y,F_{t-1}(x)+h_t(x))=(y-F_{t-1}-h_t(x))^2=(r-h_t(x))^2$
这里 $r=y-F_{t-1}(x)$ 是当前模型拟合数据的残差。所以对于提升树来说只需要简单地拟合当前模型的残差。
(3) 更新 $F_m(x)=F_{m-1}(x)+h_m(x)$
得到回归问题提升树
$F_M(x)=\sum_{m=1}^Mh_m(x)$

参考文献

四、梯度提升Gradient boosting (GB)

当损失函数是平方损失和指数损失函数时，提升树每一步优化是很简单的，但是对于一般损失函数而言，往往每一步优化起来不那么容易，针对这一问题，Friedman提出了梯度提升算法，这是利用最速下降的近似方法，其关键是利用损失函数的负梯度作为提升树算法中的残差的近似值。
Gradient boosting是一种用于回归和分类问题的机器学习技术，是一种Boosting的方法。

Gradient boosting的主要思想是：迭代产生多个（M个）弱的模型，每一次建立模型是在之前建立模型损失函数的梯度下降方向。然后将每个弱模型的预测结果相加，后面的模型 $F_{m+1}(hx)$ 基于前面学习模型的 $F_{m}(x)$ 的效果生成的，关系如下：
$F_{m}(x)=F_{m-1}(x)+\rho_mh (x;\alpha_m)$
将损失定义为任意函数的boosting就是Gradient Boosting。
算法步骤：

初始化模型 $F_0(x)=argmin_L(y,\rho)$
对 $m = 1, 2, \dots, M$
（1）计算伪残差
$r_{mi}=-\frac{dL(y,F_{m-1}(x_i))}{dF_{m-1}(x_i)}, i=1, 2, …,N$
(2) 拟合残差 $r_{mi}$ 学习一个弱学习器，得到 $h(x;\alpha_m)$
$\alpha_m=argmin_{\alpha,\beta} \sum_{i=1}^N[r_{mi}-\beta h(x_i;\alpha)]$
$\rho_m=argmin_\rho\sum_{i=1}^NL(r_{mi},F_{n-1}(x_i)+\rho h(x_i;\alpha_m))$
(3) 更新 $F_m(x)=F_{m-1}(x)+\rho_m h(x;\alpha_m)$
得到最终的强学习器
$F_M(x)=\sum_{m=1}^M\rho_m h(x;\alpha_m)$

五、梯度提升决策树Gradient boosting Decision Tree(GBDT)

GBDT也是集成学习Boosting家族的成员，但是却和传统的Adaboost有很大的不同。
AdaBoost算法是模型为加法模型，损失函数为指数函数，学习算法为前向分步算法时的分类问题。而GBDT算法是模型为加法模型，学习算法为前向分步算法，基函数为CART树，损失函数为平方损失函数的回归问题，为指数函数的分类问题和为一般损失函数的一般决策问题。在针对基学习器的不足上，AdaBoost算法是通过提升错分数据点的权重来定位模型的不足，而梯度提升算法是通过算梯度来定位模型的不足。
GBDT使用的决策树是CART回归树，无论是处理回归问题还是二分类以及多分类，GBDT使用的决策树通通都是都是CART回归树。为什么不用CART分类树呢？因为GBDT每次迭代要拟合的是梯度值，是连续值所以要用回归树。
GBDT是GB和DT的结合。
算法步骤：

初始化：（估计使损失函数极小化的常数值，它是只有一个根节点的树，一般平方损失函数为节点的均值，而绝对损失函数为节点样本的中位数）
$F_0(x)=argmin_c\sum_{i=1}^NL(y_i,c)$
对 $m = 1, 2, \dots, M$ (M表示迭代次数，即生成的弱学习器个数）：
(1) 对样本 $i = 1, 2, . . ., M$ ，计算损失函数的负梯度在当前模型的值将它作为残差的估计，对于平方损失函数为，它就是通常所说的残差；而对于一般损失函数，它就是残差的近似值（伪残差）：
$r_{mi}=-\frac{dL(y,F_{m-1}(x_i))}{dF_{m-1}(x_i)}, i=1, 2, …,N$
(2) 对 ${(x_1,r_{m1}),..., (x_m,r_{mN})}$ 拟合一个回归树，得到第m棵树的叶节点区域 $R_{mj}$ ， $j - 1, 2, . . ., J$ （J表示每棵树的叶节点个数）
(3) 对 $j - 1, 2, . . ., J$ ，利用线性搜索，估计叶节点区域的值，使损失函数最小化，计算
$c_{mj}=argmin_c\sum_{x_i\in R_{mj}}L(y_i,F_{m-1}(x_i+c))$
(4) 更新
$F_m(x)=F_{m-1}(x)+\sum_{j=1}^Jc_{mj}I(x\in R_{mj})$
3. 得到回归树
$F_M(x)=\sum_{m=1}^M\sum_{j=1}^Jc_{mj}I(x\in R_{mj})$

5.1 GBDT优缺点

GBDT优点

可以灵活处理各种类型的数据，包括连续值和离散值。
在相对较少的调参时间情况下，预测的准确率也比较高，相对SVM而言。
在使用一些健壮的损失函数，对异常值得鲁棒性非常强。比如Huber损失函数和Quantile损失函数。

GBDT缺点

由于弱学习器之间存在较强依赖关系，难以并行训练。可以通过自采样的SGBT来达到部分并行。

5.2 GBDT防止过拟合——正则化

给每棵数的输出结果乘上一个步长 $\alpha$ （learning rate）
对于前面的弱学习器的迭代：
$F_m(x)=F_{m-1}+T(x;\gamma _m)$
加上正则化项，则有
$F_m(x)=F_{m-1}+\alpha T(x;\gamma _m)$
此处，a的取值范围为(0,1]。对于同样的训练集学习效果，较小的a意味着需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起决定算法的拟合效果。
第二种正则化的方式就是通过子采样比例(subsample)。取值范围为(0,1]。
GBDT这里的做法是在每一轮建树时，样本是从原始训练集中采用无放回随机抽样的方式产生，与随机森立的有放回抽样产生采样集的方式不同。若取值为1，则采用全部样本进行训练，若取值小于1，则不选取全部样本进行训练。选择小于1的比例可以减少方差，防止过拟合，但可能会增加样本拟合的偏差。取值要适中，推荐[0.5,0.8]。
第三种是对弱学习器即CART回归树进行正则化剪枝。（如控制树的最大深度、节点的最少样本数、最大叶子节点数、节点分支的最小样本数等）

5.3 sklearn参数

在scikit-learning中，GradientBoostingClassifier对应GBDT的分类算法，GradientBoostingRegressor对应GBDT的回归算法。
具体算法参数情况如下：

GradientBoostingRegressor(loss=’ls’, learning_rate=0.1, n_estimators=100,
subsample=1.0, criterion=’friedman_mse’, min_samples_split=2,
min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3,
min_impurity_decrease=0.0, min_impurity_split=None, init=None,
random_state=None, max_features=None, alpha=0.9, verbose=0,
max_leaf_nodes=None, warm_start=False, presort=’auto’,
validation_fraction=0.1, n_iter_no_change=None, tol=0.0001)

参数说明：

n_estimators：弱学习器的最大迭代次数，也就是最大弱学习器的个数。
learning_rate：步长，即每个学习器的权重缩减系数a，属于GBDT正则化方化手段之一。
subsample：子采样，取值(0,1]。决定是否对原始数据集进行采样以及采样的比例，也是GBDT正则化手段之一。
init：我们初始化的时候的弱学习器。若不设置，则使用默认的。
loss：损失函数，可选{‘ls’-平方损失函数，‘lad’绝对损失函数-,‘huber’-huber损失函数,‘quantile’-分位数损失函数}，默认’ls’。
alpha：当我们在使用Huber损失"Huber"和分位数损失"quantile"时，需要指定相应的值。默认是0.9，若噪声点比较多，可适当降低这个分位数值。
criterion：决策树节搜索最优分割点的准则，默认是"friedman_mse"，可选"mse"-均方误差与’mae"-绝对误差。
max_features：划分时考虑的最大特征数，就是特征抽样的意思，默认考虑全部特征。
max_depth：树的最大深度。
min_samples_split：内部节点再划分所需最小样本数。
min_samples_leaf：叶子节点最少样本数。
max_leaf_nodes：最大叶子节点数。
min_impurity_split：节点划分最小不纯度。
presort：是否预先对数据进行排序以加快最优分割点搜索的速度。默认是预先排序，若是稀疏数据，则不会预先排序，另外，稀疏数据不能设置为True。
validationfraction：为提前停止而预留的验证数据比例。当n_iter_no_change设置时才能用。
n_iter_no_change：当验证分数没有提高时，用于决定是否使用早期停止来终止训练。

5.4 GBDT应用场景

GBDT几乎可以用于所有回归问题（线性/非线性），相对loigstic regression仅能用于线性回归，GBDT的适用面非常广。亦可用于分类问题。
参考文章

六、XGBoost

经过前面的学习，我们已经知道，GBDT是一种基于集成思想下的Boosting学习器，并采用梯度提升的方法进行每一轮的迭代最终组建出强学习器，这样的话算法的运行往往要生成一定数量的树才能达到令我们满意的准确率。当数据集大且较为复杂时，运行一次极有可能需要几千次的迭代运算，这将对我们使用算法造成巨大的计算瓶颈。
针对这一问题，华盛顿大学的陈天奇博士开发出了XGBoost（eXtreme Gradient Boosting），它是Gradient Boosting Machine的一个c++实现，并在原有的基础上加以改进，从而极大地提升了模型训练速度和预测精度。可以说，XGBoost是Gradient Boosting的高效实现。

在XGBoost中，目标函数的形式为： $Obj(\Theta) = L(\theta) + \Omega(\Theta)$

$L(\theta)$ ：损失函数，常用的损失函数有：
1. 平方损失： $L(\theta)=\sum_i(y_i-\hat{y_i})^2$
2. Logistic损失： $L(\theta)=\sum_i[y_iln(1+e^{-\hat{y_i}})+(1-y_i)ln(1+e^{\hat{y_i}})]$
$\Omega(\Theta)$ ：正则化项，之所以要引入它是因为我们的目标是希望生成的模型能准确的预测新的样本（即应用于测试数据集），而不是简单的拟合训练集的结果（这样会导致过拟合）。所以需要在保证模型“简单”的基础上最小化训练误差，这样得到的参数才具有好的泛化性能。而正则项就是用于惩罚复杂模型，避免预测模型过分拟合训练数据，常用的正则有L_1正则与L_2正则。

如果目标函数中的损失函数权重过高，那么模型的预测精度则不尽人意，反之如果正则项的权重过高，所生成的模型则会出现过拟合情况，难以对新的数据集做出有效预测。只有平衡好两者之间的关系，控制好模型复杂度，并在此基础上对参数进行求解，生成的模型才会“简单有效”（这也是机器学习中的偏差方差均衡）。

6.1 XGBoost的推导过程

6.1.1 目标函数的迭代与泰勒展开

由于之前已经学习过树的生成及集成方法，这里不再赘述。首先，我们可以把某一次迭代后集成的模型表示为：
$\hat{y}_i=\sum_{k=1}^KF_k(x_i), F_k\in \mathcal{F}$
$\hat{y}_i$ 也就是上文中的 $F_m(x)$
所对应的目标函数： $Obj(\theta) = L(y_i,\hat{y}_i) + \sum_{k=1}^K(F_k)$
将这两个公式进行扩展，应用在前t轮的模型迭代中，具体表示为：
$\begin {aligned} &\hat{y}_i^{(0)}=0\\ &\hat{y}_i^{(1)}=F_1(x_i)=\hat{y}_i^{(0)}+F_1(x_i)\\ &\hat{y}_i^{(2)}=F_1(x_i)+F_2(x_i)=\hat{y}_i^{(1)}+F_2(x_i)\\ &\cdots\\ &\hat{y}_i^{(t)}=\sum_{k=1}^tF_k(x_i)=\hat{y}_i^{(t-1)}+F_t(x_i) \end{aligned}$
$\hat{y_i}^{(t-1)}$ 就是前 $t - 1$ 轮的模型预测， $F_t(x_i)$ 为新t轮加入的预测函数。
这里自然就涉及一个问题：如何选择在每一轮中加入的 $F(x_i)$ 呢？答案很直接，选取的 $f(x_i)$ 必须使得我们的目标函数尽量最大地降低（这里应用到了Boosting的基本思想，即当前的基学习器重点关注以前所有学习器犯错误的那些数据样本，以此来达到提升的效果）。先对目标函数进行改写，表示如下:
$\begin{aligned} Obj^{(t)} & = \sum_{i=1}^nL(y_i, \hat{y}_i^{(t)}) + \sum_{i=1}^t \Omega(F_i) \\ & = \sum_{i=1}^n L(y_i, \hat{y}_i^{(t-1)} + F_t(x_i)) + \Omega(F_t) + constant \end{aligned}$
如果我们考虑使用平方误差作为损失函数，公式可改写为:
$\begin{aligned} Obj^{(t)} & = \sum_{i=1}^n (y_i - (\hat{y}_i^{(t-1)} + F_t(x_i)))^2 + \sum_{i=1}^t\Omega(F_i) \\ & = \sum_{i=1}^n [2(\hat{y}_i^{(t-1)} - y_i)F_t(x_i) + F_t(x_i)^2] + \Omega(F_t) + constant \end{aligned}$
对于不是平方误差的情况，我们可以采用如下的泰勒展开近似来定义一个近似的目标函数，方便我们进行这一步的计算。

泰勒展开： $f(x+\Delta x)\simeq F(x)+F^{'}(x)\Delta x+\frac{1}{2} F^{''}(x)\Delta x^2$
$\text{Obj}^{(t)} = \sum_{i=1}^n [L(y_i, \hat{y}_i^{(t-1)}) + g_i F_t(x_i) + \frac{1}{2} h_i F_t^2(x_i)] + \Omega(F_t) + constant$
其中 $g_i= \partial_{\hat{y}_i^{(t-1)}} L(y_i, \hat{y}_i^{(t-1)})，h_i = \partial_{\hat{y}_i^{(t-1)}}^2 L(y_i, \hat{y}_i^{(t-1)})$

如果移除掉常数项，我们会发现这个目标函数有一个非常明显的特点，它只依赖于每个数据点的在误差函数上的一阶导数和二阶导数 $（\sum_{i=1}^n [g_i F_t(x_i) + \frac{1}{2} h_i F_t^2(x_i)] + \Omega(F_t)$ 。

6.1.2 决策树的复杂度

接着来讨论如何定义树的复杂度。我们先对于 $F$ 的定义做一下细化，把树拆分成结构部分 $q$ 和叶子权重部分 $\omega$ 。其中结构函数 $q$ 把输入映射到叶子的索引号上面去，而 $\omega$ 给定了每个索引号对应的叶子分数是什么。
具体公式为： $F_t(x) = \omega _{q(x)}, \omega \in R^T, q: R^d\rightarrow \{1,2,\cdots,T\}$

当我们给定上述定义后，那么一棵树的复杂度就为 $\Omega(F) = \gamma T + \frac{1}{2}\lambda \sum_{j=1}^T \omega_j^2$
这个复杂度包含了一棵树里面节点的个数（左侧），以及每个树叶子节点上面输出分数的 $L_2$ 模平方（右侧）。当然这不是唯一的一种定义方式，不过这一定义方式学习出的树效果一般都比较不错。
简单提及一下 $\gamma$ 和 $\lambda$ 两个系数的作用， $\gamma$ 作为叶子节点的系数，使XGBoost在优化目标函数的同时相当于做了预剪枝； $\lambda$ 作为 $L_2$ 平方模的系数 也是要起到防止过拟合的作用。

6.1.3 目标函数的最小化

接下来就是非常关键的一步，在这种新的定义下，我们可以把目标函数进行如下改写，其中 $I$ 被定义为每个叶子上面样本集合 $I_j = \{i|q(x_i)=j\}$
$\begin{aligned} Obj^{(t)} &\approx \sum_{i=1}^n [g_i \omega_{q(x_i)} + \frac{1}{2} h_i \omega_{q(x_i)}^2] + \gamma T + \frac{1}{2}\lambda \sum_{j=1}^T \omega_j^2\\ &= \sum^T_{j=1} [(\sum_{i\in I_j} g_i) \omega_j + \frac{1}{2} (\sum_{i\in I_j} h_i + \lambda) \omega_j^2 ] + \gamma T \end{aligned}$
分别定义 $G_j = \sum_{i\in I_j} g_i$ 与 $H_j = \sum_{i\in I_j} h_i$ ，上式简化为
${Obj}^{(t)} = \sum^T_{j=1} [G_j\omega_j + \frac{1}{2} (H_j+\lambda) \omega_j^2] +\gamma T$
由此，我们将目标函数转换为一个一元二次方程求最小值的问题（在此式中，变量为 $\omega_j$ ，函数本质上是关于 $\omega_j$ 的二次函数），略去求解步骤，最终结果如下所示：
$\omega _j^\ast = -\frac{G_j}{H_j+\lambda}，{Obj}^\ast = -\frac{1}{2} \sum_{j=1}^T \frac{G_j^2}{H_j+\lambda} + \gamma T$
乍一看目标函数的计算与树的结构函数 $q$ 没有什么关系，但是如果我们仔细回看目标函数的构成，就会发现其中 $G_j$ 和 $H_j$ 的取值都是由第 $j$ 个树叶上数据样本所决定的。而第 $j$ 个树叶上所具有的数据样本则是由树结构函数 $q$ 决定的。也就是说，一旦树的结构 $q$ 确定，那么相应的目标函数就能够根据上式计算出来。那么树的生成问题也就转换为找到一个最优的树结构 $q$ ，使得它具有最小的目标函数。
计算求得的 $O b j$ 代表了当指定一个树的结构的时候，目标函数上面最多减少多少。所有我们可以把它叫做结构分数(structure score)。

6.1.4 枚举树的结构——贪心法

在前面分析的基础上，当寻找到最优的树结构时，我们可以不断地枚举不同树的结构，利用这个打分函数来寻找出一个最优结构的树，加入到我们的模型中，然后再重复这样的操作。不过枚举所有树结构这个操作不太可行，在这里XGBoost采用了常用的贪心法，即每一次尝试去对已有的叶子加入一个分割。对于一个具体的分割方案，我们可以获得的增益可以由如下公式计算得到：
$\frac{1}{2} \left[\frac{G_L^2}{H_L+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}\right] - \gamma$
其中 $\frac{G_L^2}{H_L+\lambda}$ 代表左子树分数， $\frac{G_R^2}{H_R+\lambda}$ 代表右子树分数， $\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}$ 代表不分割时我们可以获得的分数， $\gamma$ 代表加入新叶子节点引入的复杂度代价。

对于每次扩展，我们还是要枚举所有可能的分割方案，那么如何高效地枚举所有的分割呢？假设需要枚举所有 $这样的条件，那么对于某个特定的分割 a 我们要计算 a 左边和右边的导数和，$

我们可以发现对于所有的 $a$ ，我们只要做一遍从左到右的扫描就可以枚举出所有分割的梯度与 $G_L$ 和 $G_R$ 。然后用上面的公式计算每个分割方案的分数就可以了。

但需要注意是：引入的分割不一定会使得情况变好，因为在引入分割的同时也引入新叶子的惩罚项。所以通常需要设定一个阈值，如果引入的分割带来的增益小于一个阀值的时候，我们可以剪掉这个分割。此外在XGBoost的具体实践中，通常会设置树的深度来控制树的复杂度，避免单个树过于复杂带来的过拟合问题。
到这里为止，XGBoost的数学推导就简要介绍完毕。

6.2 XGBoost与GBDT比较

同样是梯度提升，同样是集成学习，那么XGBoost比GBDT要好在哪里呢？

GBDT是以CART为基分类器，但XGBoost在此基础上还支持线性分类器，此时XGBoost相当于带 $L_1$ 和 $L_2$ 正则化项的Logistics回归（分类问题）或者线性回归（回归问题）。
XGBoost在目标函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数和每棵树叶子节点上面输出分数的 $L_2$ 模平方。从偏差方差权衡的角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合。
传统的GBDT在优化时只用到一阶导数，XGBoost则对目标函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。（顺便提一下，XGBoost工具支持自定义代价函数，只要函数可一阶和二阶求导）。
树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以XGBoost采用了一种近似的算法。大致的思想是根据百分位法列举几个可能成为分割点的候选者，然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。
Shrinkage（缩减），相当于学习速率（XGBoost中的eta）。XGBoost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。实际应用中，一般把eta设置得小一点，然后迭代次数设置得大一点。（当然普通的GBDT实现也有学习速率）。
特征列排序后以块的形式存储在内存中，在迭代中可以重复使用；虽然boosting算法迭代必须串行，但是在处理每个特征列时可以做到并行。
列抽样（column subsampling）：XGBoost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是XGBoost异于传统GBDT的一个特性。
除此之外，XGBoost还考虑了当数据量比较大，内存不够时怎么有效的使用磁盘，主要是结合多线程、数据压缩、分片的方法，尽可能的提高算法效率。
参考文章

6.3 XGBoost的优势

正则化

标准GBM的实现没有像XGBoost这样的正则化步骤。正则化对减少过拟合也是有帮助的。
实际上，XGBoost以“正则化提升(regularized boosting)”技术而闻名。

并行处理

XGBoost可以实现并行处理，相比GBM有了速度的飞跃。
不过，众所周知，Boosting算法是顺序处理的，它怎么可能并行呢？每一课树的构造都依赖于前一棵树，那具体是什么让我们能用多核处理器去构造一个树呢？我希望你理解了这句话的意思。如果你希望了解更多，点击这个链接。
XGBoost 也支持Hadoop实现。

高度的灵活性

XGBoost 允许用户定义自定义优化目标和评价标准。
它对模型增加了一个全新的维度，所以我们的处理不会受到任何限制。

缺失值处理

XGBoost内置处理缺失值的规则。
用户需要提供一个和其它样本不同的值，然后把它作为一个参数传进去，以此来作为缺失值的取值。XGBoost在不同节点遇到缺失值时采用不同的处理方法，并且会学习未来遇到缺失值时的处理方法。

剪枝

当分裂时遇到一个负损失时，GBM会停止分裂。因此GBM实际上是一个贪心算法。
XGBoost会一直分裂到指定的最大深度(max_depth)，然后回过头来剪枝。如果某个节点之后不再有正值，它会去除这个分裂。
这种做法的优点，当一个负损失（如-2）后面有个正损失（如+10）的时候，就显现出来了。GBM会在-2处停下来，因为它遇到了一个负值。但是XGBoost会继续分裂，然后发现这两个分裂综合起来会得到+8，因此会保留这两个分裂。

内置交叉验证

XGBoost允许在每一轮boosting迭代中使用交叉验证。因此，可以方便地获得最优boosting迭代次数。
而GBM使用网格搜索，只能检测有限个值。

在已有的模型基础上继续

XGBoost可以在上一轮的结果上继续训练。这个特性在某些特定的应用上是一个巨大的优势。
sklearn中的GBM的实现也有这个功能，两种算法在这一点上是一致的。

6.4 XGBoost的参数

XGBoost的作者把所有的参数分成了三类：

通用参数：宏观函数控制。
Booster参数：控制每一步的booster(tree/regression)。
学习目标参数：控制训练目标的表现。

6.4.1 通用参数

这些参数用来控制XGBoost的宏观功能。

booster[默认gbtree]

选择每次迭代的模型，有两种选择：
gbtree：基于树的模型
gbliner：线性模型

silent[默认0]
-当这个参数值为1时，静默模式开启，不会输出任何信息。

一般这个参数就保持默认的0，因为这样能帮我们更好地理解模型。

nthread[默认值为最大可能的线程数]

这个参数用来进行多线程控制，应当输入系统的核数。
如果你希望使用CPU全部的核，那就不要输入这个参数，算法会自动检测它。

还有两个参数，XGBoost会自动设置，目前你不用管它。接下来咱们一起看booster参数。

6.4.2 booster参数

尽管有两种booster可供选择，我这里只介绍tree booster，因为它的表现远远胜过linear booster，所以linear booster很少用到。

eta[默认0.3]

和GBM中的 learning rate 参数类似。
通过减少每一步的权重，可以提高模型的鲁棒性。
典型值为0.01-0.2。

min_child_weight[默认1]

决定最小叶子节点样本权重和。
和GBM的 min_child_leaf 参数类似，但不完全一样。XGBoost的这个参数是最小样本权重的和，而GBM参数是最小样本总数。
这个参数用于避免过拟合。当它的值较大时，可以避免模型学习到局部的特殊样本。
但是如果这个值过高，会导致欠拟合。这个参数需要使用CV来调整。

max_depth[默认6]

和GBM中的参数相同，这个值为树的最大深度。
这个值也是用来避免过拟合的。max_depth越大，模型会学到更具体更局部的样本。
需要使用CV函数来进行调优。
典型值：3-10

max_leaf_nodes

树上最大的节点或叶子的数量。
可以替代max_depth的作用。因为如果生成的是二叉树，一个深度为n的树最多生成 $n 2$ 个叶子。-
如果定义了这个参数，GBM会忽略max_depth参数。

gamma[默认0]

在节点分裂时，只有分裂后损失函数的值下降了，才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。
这个参数的值越大，算法越保守。这个参数的值和损失函数息息相关，所以是需要调整的。

max_delta_step[默认0]

这参数限制每棵树权重改变的最大步长。如果这个参数的值为0，那就意味着没有约束。如果它被赋予了某个正值，那么它会让这个算法更加保守。
通常，这个参数不需要设置。但是当各类别的样本十分不平衡时，它对逻辑回归是很有帮助的。
这个参数一般用不到，但是你可以挖掘出来它更多的用处。

subsample[默认1]

和GBM中的subsample参数一模一样。这个参数控制对于每棵树，随机采样的比例。
减小这个参数的值，算法会更加保守，避免过拟合。但是，如果这个值设置得过小，它可能会导致欠拟合。
典型值：0.5-1

colsample_bytree[默认1]

和GBM里面的max_features参数类似。用来控制每棵随机采样的列数的占比(每一列是一个特征)。
典型值：0.5-1

colsample_bylevel[默认1]

用来控制树的每一级的每一次分裂，对列数的采样的占比。
我个人一般不太用这个参数，因为subsample参数和colsample_bytree参数可以起到相同的作用。但是如果感兴趣，可以挖掘这个参数更多的用处。

lambda[默认1]

权重的L2正则化项。(和Ridge regression类似)。
这个参数是用来控制XGBoost的正则化部分的。虽然大部分数据科学家很少用到这个参数，但是这个参数在减少过拟合上还是可以挖掘出更多用处的。

alpha[默认1]

权重的 $L_1$ 正则化项。(和Lasso regression类似)。
可以应用在很高维度的情况下，使得算法的速度更快。

scale_pos_weight[默认1]

在各类别样本十分不平衡时，把这个参数设定为一个正值，可以使算法更快收敛。

6.4.3 学习目标参数

这个参数用来控制理想的优化目标和每一步结果的度量方法。

objective[默认reg:linear]

这个参数定义需要被最小化的损失函数。最常用的值有：
(1) binary:logistic 二分类的逻辑回归，返回预测的概率(不是类别)。
(2) multi:softmax 使用softmax的多分类器，返回预测的类别(不是概率)。
在这种情况下，你还需要多设一个参数：num_class(类别数目)。
(3) multi:softprob 和multi:softmax参数一样，但是返回的是每个数据属于各个类别的概率。
2. eval_metric[默认值取决于objective参数的取值]
- 对于有效数据的度量方法。
- 对于回归问题，默认值是rmse，对于分类问题，默认值是error。
- 典型值有：
  (1) rmse 均方根误差 $(\sqrt \frac{\sum_{i=1}^N \epsilon^2}{N})$
  (2) mae 平均绝对误差 $(\frac {\sum_{i=1}^N |\epsilon|}{N} )$
  (3) logloss 负对数似然函数值
  (4) error 二分类错误率(阈值为0.5)
  (5) merror 多分类错误率
  (6) mlogloss 多分类logloss损失函数
  (7) auc 曲线下面积
1. seed(默认0)
- 随机数的种子
- 设置它可以复现随机数据的结果，也可以用于调整参数
  如果你之前用的是Scikit-learn,你可能不太熟悉这些参数。但是有个好消息，python的XGBoost模块有一个sklearn包，XGBClassifier。这个包中的参数是按sklearn风格命名的。会改变的函数名是：
  (1) eta -> learning_rate
  (2) lambda -> reg_lambda
  (3) alpha -> reg_alpha
  你肯定在疑惑为啥咱们没有介绍和GBM中的n_estimators类似的参数。XGBClassifier中确实有一个类似的参数，但是，是在标准XGBoost实现中调用拟合函数时，把它作为num_boosting_rounds参数传入。
  XGBoost Guide 的一些部分是我强烈推荐大家阅读的，通过它可以对代码和参数有一个更好的了解：
  XGBoost Parameters (official guide)
  XGBoost Demo Codes (xgboost GitHub repository)
  Python API Reference (official guide)

调参示例
我们从Data Hackathon 3.x AV版的hackathon中获得数据集，和GBM 介绍文章中是一样的。更多的细节可以参考competition page
数据集可以从这里下载。我已经对这些数据进行了一些处理：

City变量，因为类别太多，所以删掉了一些类别。
DOB变量换算成年龄，并删除了一些数据。
增加了 EMI_Loan_Submitted_Missing 变量。如果EMI_Loan_Submitted变量的数据缺失，则这个参数的值为1。否则为0。删除了原先的EMI_Loan_Submitted变量。
EmployerName变量，因为类别太多，所以删掉了一些类别。
因为Existing_EMI变量只有111个值缺失，所以缺失值补充为中位数0。
增加了 Interest_Rate_Missing 变量。如果Interest_Rate变量的数据缺失，则这个参数的值为1。否则为0。删除了原先的Interest_Rate变量。
删除了Lead_Creation_Date，从直觉上这个特征就对最终结果没什么帮助。
Loan_Amount_Applied, Loan_Tenure_Applied 两个变量的缺项用中位数补足。
增加了 Loan_Amount_Submitted_Missing 变量。如果Loan_Amount_Submitted变量的数据缺失，则这个参数的值为1。否则为0。删除了原先的Loan_Amount_Submitted变量。
增加了 Loan_Tenure_Submitted_Missing 变量。如果 Loan_Tenure_Submitted 变量的数据缺失，则这个参数的值为1。否则为0。删除了原先的 Loan_Tenure_Submitted 变量。
删除了LoggedIn, Salary_Account 两个变量
增加了 Processing_Fee_Missing 变量。如果 Processing_Fee 变量的数据缺失，则这个参数的值为1。否则为0。删除了原先的 Processing_Fee 变量。
Source前两位不变，其它分成不同的类别。
进行了离散化和独热编码(一位有效编码)。
如果你有原始数据，可以从资源库里面下载data_preparation的Ipython notebook 文件，然后自己过一遍这些步骤。

你可能感兴趣的:(笔记)

日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
【花了N长时间读《过犹不及》，不断练习，可以越通透】君君Love
我已经记不清花了多长时间去读《过犹不及》，读书笔记都写了42页，这算是读得特别精细的了。是一本难得的好书，虽然书中很多内容和圣经吻合，我不是基督徒，却觉得这样的文字值得细细品味，和我们的生活息息相关。我是个界线建立不牢固的人，常常愧疚，常常害怕他人的愤怒，常常不懂拒绝，还有很多时候表达不了自己真实的感受，心里在说不嘴里却在说好……这本书给我很多的启示，让我学会了怎样去建立属于自己的清晰的界限。建立
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
第八课: 写作出版你最关心的出书流程和市场分析（无戒学堂复盘）人在陌上
今天是周六，恰是圣诞节。推掉了两个需要凑腿的牌局，在一个手机，一个笔记本，一台电脑，一杯热茶的陪伴下，一个人静静地回听无戒学堂的最后一堂课。感谢这一个月，让自己的习惯开始改变，至少，可以静坐一个下午而不觉得乏味枯燥难受了，要为自己点个赞。我深知，这最后一堂课的内容，以我的资质和毅力，可能永远都用不上。但很明显，无戒学堂是用了心的，毕竟，有很多优秀学员，已经具备了写作能力，马上就要用到这堂课的内容。
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
《感官品牌》读书笔记 1 西红柿阿达
原文:最近我在东京街头闲逛时，与一位女士擦肩而过，我发现她的香水味似曾相识。“哗”的一下，记亿和情感立刻像潮水般涌了出来。这个香水味把我带回了15年前上高中的时候，我的一位亲密好友也是用这款香水。一瞬间，我呆站在那里，东京的街景逐渐淡出，取而代之的是我年少时的丹麦以及喜悦、悲伤、恐惧、困惑的记忆。我被这熟悉的香水味征服了。感想:感官是有记忆的，你所听到，看到，闻到过的有代表性的事件都会在大脑中深深
我不想再当知识的搬运工楚煜楚尧
因为学校课题研究的需要，这个暑假我依然需要完成一本书的阅读笔记。我选的是管建刚老师的《习课堂十讲》。这本书，之前我读过，所以重读的时候，感到很亲切，摘抄起来更是非常得心应手。20页，40面，抄了十天，终于在今天大功告成了。这对之前什么事都要一拖再拖的我来说，是破天荒的改变。我发现至从认识小尘老师以后，我的确发生了很大的改变。遇到必须做却总是犹豫不去做的事，我学会了按照小尘老师说的那样，在心里默默数
20210517坚持分享53天读书摘抄笔记非暴力沟通——爱自己 f79a6556cb19
让生命之花绽放在赫布·加德纳（HerbGardner）编写的《一千个小丑》一剧中，主人公拒绝将他12岁的外甥交给儿童福利院。他郑重地说道：“我希望他准确无误地知道他是多么特殊的生命，要不，他在成长的过程中将会忽视这一点。我希望他保持清醒，并看到各种奇妙的可能。我希望他知道，一旦有机会，排除万难给世界一点触动是值得的。我还希望他知道为什么他是一个人，而不是一张椅子。”然而，一旦负面的自我评价使我们看
Unity学习笔记1 zy_777
通过一个星期的简单学习，初步了解了下unity，unity的使用，以及场景的布局，UI，以及用C#做一些简单的逻辑。好记性不如烂笔头，一些关键帧还是记起来比较好，哈哈，不然可能转瞬即逝了，（PS:纯小白观点，unity大神可以直接忽略了）一：MonoBehaviour类的初始化1，Instantiate()创建GameObject2，通过Awake()和Start()来做初始化3，Update、L
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
Redis 分布式锁深度解析：过期时间与自动续期机制爱恨交织围巾分布式事务 redis 分布式数据库微服务学习 go
Redis分布式锁深度解析：过期时间与自动续期机制在分布式系统中，Redis分布式锁的可靠性很大程度上依赖于对锁生命周期的管理。上一篇文章我们探讨了分布式锁的基本原理，今天我们将聚焦于一个关键话题：如何通过合理设置过期时间和实现自动续期机制，来解决分布式锁中的死锁与锁提前释放问题。一、为什么过期时间是分布式锁的生命线？你的笔记中提到"服务挂掉时未删除锁可能导致死锁"，这正是过期时间要解决的核心问题
08.学习闭环三部曲：预习、实时学习、复习 0058b195f4dc
人生就是一本效率手册，你怎样对待时间，时间就会给你同比例的回馈。单点突破法。预习，实时学习，复习。1、预习：凡事提前【计划】（1）前一晚设置三个当日目标。每周起始于每周日。（2）提前学习。预习法进行思考。预不预习效果相差20％，预习法学会提问。（3）《学会提问》。听电子书。2.实时学习（1）（10％）相应场景，思维导图，快速笔记。灵感笔记。（2）大纲，基本记录，总结篇。3.复习法则，（70％），最
《如何写作》文心读书笔记逆熵反弹力
《文心》这本书的文体是以讲故事的形式来讲解如何写作的，读起来不会觉得刻板。读完全书惊叹大师的文笔如此之好，同时感叹与此书相见恨晚。工作了几年发现表达能力在生活中越来越重要，不管是口语还是文字上的表达。有时候甚至都不能把自己想说的东西表达清楚，平时也有找过一些书来看，想通过提升自己的阅读量来提高表达能力。但是看了这么久的书发现见效甚微，这使得我不得不去反思，该怎么提高表达能力。因此打算从写作入手。刚
SQL笔记纯干货 AI入门修炼 oracle 数据库 sql
软件：DataGrip2023.2.3，phpstudy_pro,MySQL8.0.12目录1.DDL语句（数据定义语句）1.1数据库操作语言1.2数据表操作语言2.DML语句（数据操作语言）2.1增删改2.2题2.3备份表3.DQL语句（数据查询语言）3.1查询操作3.2题一3.3题二4.多表详解4.1一对多4.2多对多5.多表查询6.窗口函数7.拓展:upsert8.sql注入攻击演示9.拆表
《4D卓越团队》习书笔记第十六章创造力与投入 Smiledmx
《4D卓越团队-美国宇航局的管理法则》（查理·佩勒林）习书笔记第十六章创造力与投入本章要点：务实的乐观不是盲目乐观，而是带来希望的乐观。用真相激起希望吉姆·科林斯在《从优秀到卓越》中写道：“面对残酷的现实，平庸的公司选择解释和逃避，而不是正视。”创造你想要的项目1.你必须从基于真相的事实出发。正视真相很难，逃避是人类的本性。2.面对现实，你想创造什么？-我想利用现有资源创造一支精干、高效、积极的橙
2020-12-10 生活有鱼_727f
今日汇总：1.学习了一只舞蹈2.专业知识抄了一遍3.讲师训作业完成今日不足之处：1.时间没管理好，浪费了很多时间到现在才做完明日必做：1.讲师训作业完成2.群消息做好笔记3.宽带安装
【Druid】学习笔记 fixAllenSun 学习笔记 oracle
【Druid】学习笔记【一】简介【1】简介【2】数据库连接池（1）能解决的问题（2）使用数据库连接池的好处【3】监控（1）监控信息采集的StatFilter（2）监控不影响性能（3）SQL参数化合并监控（4）执行次数、返回行数、更新行数和并发监控（5）慢查监控（6）Exception监控（7）区间分布（8）内置监控DEMO【4】Druid基本配置参数介绍【5】Druid相比于其他数据库连接池的优点
微信公众号写作：如何通过文字变现？氧惠爱高省
微信公众号已成为许多人分享知识、表达观点的重要平台。随着自媒体的发展，越来越多的人开始关注微信公众号上写文章如何挣钱的问题。本文将详细探讨微信公众号写作的盈利模式，帮助广大写作者实现文字变现的梦想。公众号流量主就找善士导师（shanshi2024）公众号：「善士笔记」主理人，《我的亲身经历，四个月公众号流量主从0到日入过万！》公司旗下管理800+公众号矩阵账号。代表案例如：爸妈领域、职场道道、国学
流利说懂你英语笔记要点句型·核心课·Level 8·Unit 3·Part 2·Video 1·Healing Architecture 1 羲之大鹅video
HealingArchitecture1EveryweekendforaslongasIcanremember,myfatherwouldgetuponaSaturday,putonawornsweatshirtandhe'dscrapeawayatthesqueakyoldwheelofahousethatwelivedin.ps:从我记事起，每个周末，我父亲都会在周六起床，穿上一件破旧的运动衫
java学习笔记8 幸福，你等等我学习笔记 java
一、异常处理Error：错误，程序员无法处理，如OOM内存溢出错误、内存泄漏...会导出程序崩溃1.异常：程序中一些程序自身处理不了的特殊情况2.异常类Exception3.异常的分类:（1）.检查型异常(编译异常):在编译时就会抛出的异常(代码上会报错),需要在代码中编写处理方式(和程序之外的资源访问)直接继承Exception（2）.运行时异常:在代码运行阶段可能会出现的异常,可以不用明文处理
2025.07 Java入门笔记01 殷浩焕笔记
一、熟悉IDEA和Java语法（一）LiuCourseJavaOOP1.一直在用C++开发，python也用了些，Java是真的不熟，用什么IDE还是问的同事；2.一开始安装了jdk-23，拿VSCode当编辑器，在cmd窗口编译运行，也能玩；但是想正儿八经搞项目开发，还是需要IDE；3.安装了IDEA社区版：（1）IDE通常自带对应编程语言的安装包，例如IDEA自带jbr-21（和jdk是不同的
Java注解笔记 m0_65470938 java 开发语言
一、什么是注解Java注解又称Java标注，是在JDK5时引入的新特性，注解(也被称为元数据)Javaa注解它提供了一种安全的类似注释的机制，用来将任何的信息或元数据(metadata)与程元素类、方法、成员变量等)进行关联二、注解的应用1.生成文档这是最常见的，也是iava最早提供的注解2.在编译时进行格式检查，如@Overide放在方法前，如果你这个方法并不是看盖了超类Q方法，则编译时就能检查
Java 笔记 transient 用法
transient关键字用于标记不希望被序列化（Serialization）的字段。序列化是指将对象的状态保存到字节流中，以便将其传输或存储。当使用如ObjectOutputStream进行序列化时，transient修饰的字段将不会被序列化。✅1.使用场景避免序列化敏感信息privatetransientStringpassword;某些字段不需要持久化（如缓存、临时数据）privatetran
Java 笔记 lambda 五行缺弦 Java笔记 java 笔记
✅Lambda基本语法(parameters)->expression或(parameters)->{statements}//无参数Runnabler=()->System.out.println("Hello");//单个参数（小括号可省略）Consumerc=s->System.out.println(s);//多参数+多语句Comparatorcomp=(a,b)->{System.out
【208】《班级管理课》读书感悟（一百零五）2023-07-23 南风如我意
-----------《班级管理课》读书感悟四文/李现风2023年读书笔记读书笔记以以下三个出发点为目的：一、书中的思想，提升自己的教育理念；二、书中的值得借鉴的做法，提升自己的教育技巧；三、书中的美句，有鉴于哲理性的句子，提升自己文章的语言魅力和教育文化水准。读《班级管理课》作者陈宇读书感悟四：【书目】《班级管理课》【页数】第70页第87页【阅读内容（摘录）】第四课开学一个月：班级常规工作正常运
3步搞定群晖NAS Synology Drive远程同步Obsidian笔记
文章目录1.简介1.1软件特色演示：2.使用免费群晖虚拟机搭建群晖SynologyDrive服务，实现局域网同步2.1安装并设置SynologyDrive套件2.1局域网内同步文件测试3.内网穿透群晖SynologyDrive，实现异地多端同步3.1安装Cpolar步骤4.实现固定TCP地址同步1.简介之前我们介绍过如何免费多端同步Zotero科研文献管理软件，使用了群晖NAS虚拟机和WebDav
R语言笔记Day1（排序、筛选以及分类汇总））养猪场小老板
一、排序1、单变量序列排序2、数据表（矩阵）排序二、筛选三、分类汇总一、排序1、单变量序列排序rank、sort和order函数>aa[1]315#rank用来计算序列中每个元素的秩#这里的“秩”可以理解为该元素在序列中由小到大排列的次序#上面例子给出的序列[3,1,5]中，1最小，5最大，3居中#于是1的秩为1，3的秩为2，5的秩为3，(3,1,5)对应的秩的结果就是(2,1,3)>rank(a
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

机器学习python之CART、GB、GBDT、XGBoost