CoderBoom

MachineLearning小汇总----持续更新......

目标函数定义 :

1. GBDT(Gradient Boosting Decision Tree)

Gradient Boosting是一种Boosting的方法 , 它的主要思想是每一次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数式评价模型性能(一般为拟合程度+正则项) , 认为损失函数越小 , 性能越好。而让损失函数持续下降 , 就能使得模型不断提升性能 , 其最好的方法就是使损失函数沿着梯度方向下降。

Gradient Boosting Decision Tree每一次建立树模型是在之前建立损失函数的梯度下降方向。即利用了损失函数的负梯度在当前模型的值作为回归问题提升树算法的残差近似值 , 去拟合一棵回归树。

具体算法算理：GBDT原理-Gradient Boosting Decision Tree

为什么基分类器选用决策树 ? ===>决策树可以认为是if-then规则的集合 , 易于理解 , 可解释性强 , 预测速度快。同时 , 决策树算法相比于其他的算法需要更少的特征工程 , 比如可以不用做特征标准化 , 可以很好的处理字段缺失的数据 , 也可以不用关心特征间是否相互依赖等。决策树能够自动组合多个特征 , 它可以毫无压力地处理特征间的交互关系并且是非参数化的 , 因此不必担心异常值或者数据是否线性可分。不过 , 单独使用决策树算法时 , 有容易过拟合缺点。所幸的是 , 通过各种方法 , 抑制决策树的复杂性 , 降低单棵决策树的拟合能力 , 再通过梯度提升的方法集成多个决策树 , 最终能够很好的解决过拟合的问题。

由此可见 , 梯度提升方法和决策树学习算法可以互相取长补短, 是一对完美的搭档。至于抑制单棵决策树的复杂度的方法有很多 , 比如限制树的最大深度、限制叶子节点的最少样本数量、限制节点分裂时的最少样本数量、吸收Bagging的思想对驯良样本采样(subsample) , 在学习单棵决策树时只使用一部分训练样本、借鉴森林的思路在学习单棵决策树时只采样一部分特征、在目标函数中添加正则项惩罚复杂的树结构等。

GBDT二分类采用的损失函数是对数损失 : 因为损失函数是将所有样本的损失函数加起来 , 面对对数损失函数便是将和转变为乘的 , 故采用对数损失函数。

GBDT应用–回归和分类

GBDT分类 : 每一棵树拟合当前整个模型的损失函数的负梯度 , 构建新的树加到当前模型中形成新模型 , 下一棵树拟合新模型的损失函数的负梯度。

from sklearn import ensemble
clf = ensemble.GradientBoostingClassifier()
gbdt_model = clf.fit(X_train,y_trian) # Traning model
pred_x = gbdt_model.predict_proba(test1217_x)[:,1] # predict : probably of 1
# 包含的参数
# loss = loss(损失函数), learning_rate = learning_rate(学习率), n_estimators = n_estimators(迭代次数),
# min_samples_split = min_samples_split(最小样本切分),
# min_samples_leaf = min_samples_leaf(最小叶子节点数),
# min_weight_fraction_leaf = min_weight_fraction_leaf(最小叶子节点切分权重),
# max_depth = max_depth(最大深度), init = init, subsample = subsample,
# max_features = max_features(最大特征数),
# random_state = random_state(随机切分比例), verbose = verbose,
# max_leaf_nodes = max_leaf_nodes, warm_start = warm_start,
# presort = presort

GBDT回归 : 每一棵树拟合当前模型的残差 , 构建新的树加到当前模型中形成新模型 , 下一棵树拟合新模型的损失函数的负梯度。

from sklearn import ensemble
clf = ensemble.GradientBoostingRegressor()
gbdt_model = clf.fit(X_train,y_train) # Training model
y_upper = gbdt_model.predict(x_test) # predict
# 包含的参数和上面一致

GBDT调参问题 : sklearn中GBDT调参
GBDT运用的正则化技巧 , 防止模型过于复杂 , 参考文章GBDT运用的正则化技巧

GBDT构建新的特征的思想

特征决定模型性能上界 , 例如深度学习方法也是将数据如何更好的表达为特征。如果能够将数据表达成为线性可分的数据 , 那么使用简单的线性模型就可以取得很好的效果。GBDT构建新的特征也是使特征更好地表达数据。

**主要思想 *GBDT每棵树的路径直接作为LR输入特征使用。

用已有特征训练GBDT模型，然后利用GBDT模型学习到的树来构造新特征，最后把这些新特征加入原有特征一起训练模型。构造的新特征向量是取值0/1的，向量的每个元素对应于GBDT模型中树的叶子结点。当一个样本点通过某棵树最终落在这棵树的一个叶子结点上，那么在新特征向量中这个叶子结点对应的元素值为1，而这棵树的其他叶子结点对应的元素值为0。新特征向量的长度等于GBDT模型里所有树包含的叶子结点数之和。

上图为混合模型结构。输入特征通过增强的决策树进行转换。每个单独树的输出被视为稀疏性分类器的分类输入特征。增强的决策树被证明是非常强大的特征转换。
例子1 : 上图有两棵树 , 左树有三个叶子节点 , 右树有两个叶子节点 , 最终的特征即为五维的向量。对于输入x , 假设他落在左树的第一个节点 , 编码[1,0,0] , 落在右树第二个节点则编码[0,1] , 所以整体的编码为[1,0,0,0,1] , 这类编码作为特征, 输入到线性分类模型(LR or FM)中进行分类。
从另外一篇博客中我的理解是 : 这里两棵树给的是同一个样本 , 只是对样本进行了不同的划分 , 比如:样本为[3.4,5.6,7.8] , 我们得知该样本类别为点击(记为01) , 则我们可将样本写为[3.4,5.6,7.8,0]和[3.4,5.6,7.8,1]分别进入两棵树 , 继而得到最终的编码.针对样本有三类的情况 , 我们实质上是在每轮的训练的时候是同时训练三棵树。假设这个样本属于第二类 , 第一棵树针对样本x的第一类 , 输入为(x,0)。第二颗树针对样本x的第二类 , 输入为(x,1)。第三棵树针对样本x的第三类 , 输入为(x,0)

在这里每棵树的训练过程其实就是我们之前已经提到过的Cart Tree的生成过程。在此处我们参照之前的生成树程序 , 就可以解出三棵树以及三棵树对x类别的预测值f1(x) , f2(x) , f3(x) 。那么在此类训练中 , 我们仿照多分类的逻辑回归 , 使用softmax(映射函数)来产生概率 , 则属于类别1的概率是并且我们可以针对类别1求出残差y11(x) = 0-p1(x) ; 类别2求出残差y22(x) = 1-p2(x) ; 类别3求出残差y33(x) = 0-p3(x) .

然后开始第二轮针对第一类输入为(x,y11(x)) , 针对第二类输入为(x,y22(x)) , 针对第三类输入为(x,y33(x)) , 继续训练出第三棵树 , 一直迭代M轮 , 每轮构建3棵树。

所以当K=3 , 我们其实应该有三个式子(Cim表示预测值的均值 = 1/N*sum(yi) , I属于Rim就为1 , 不属于为0)当训练完毕以后 , 新来一个样本x1 , 我们需要预测该样本的类别的时候 , 便可以有这三个产生三个值 , f1(x) , f2(x) , f3(x) 。样本属于某个类别c的概率为

GBDT多分类算法流程图解 :

GBDT与LR融合方案

在CTR预估中 , 如何利用AD ID是一个问题。
直接将AD ID作为特征建树不可行 , 而onehot编码过于稀疏 , 为每一个AD ID建GBDT树 , 相当于发掘出区分每个广告的特征。而对于曝光不充分的样本即长尾部分 , 无法单独建树。
综合方案为 : 使用GBDT对非ID和ID分别建一类树。

非ID类树 : 不以细粒度的ID建树 , 此类树作为base , 即这些ID一起构建GBDT。即便曝光少的广告、广告主 , 扔可以通过此类树得到有区分性的特征、特征组合。
ID类树 : 以细粒度的ID建一类树(每个ID构建GBDT) , 用于发现曝光充分的ID对应有区分性的特征、特征组合。当一条样本x进来之后 , 遍历两类树到叶子节点 , 得到的特征作为LR输入。当AD曝光不充分不足以训练树时 , 其他树恰好作为补充。

例子2: 下图假设训练了3棵深度为2的树模型 , 对于输入X , 在第一棵树属于节点4 , 第二棵树属于节点7,第三棵树属于节点6 , 所以生成的特征为 : "1:4 2:7 3:6"

FFM详细资料>>

Python实现

libFFM适用于例子2的情况 , 即只用使用每棵树的index
LR适用于例子1的情况 , 须将节点使用one-hot编码

# 弱分类器的数目
n_estimator = 10
# 随机生成分类数据。
X, y = make_classification(n_samples=80000)  
# 切分为测试集和训练集，比例0.5
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)
# 将训练集切分为两部分，一部分用于训练GBDT模型，另一部分输入到训练好的GBDT模型生成GBDT特征，然后作为LR的特征。这样分成两部分是为了防止过拟合。
X_train, X_train_lr, y_train, y_train_lr = train_test_split(X_train, y_train, test_size=0.5)
# 调用GBDT分类模型。
grd = GradientBoostingClassifier(n_estimators=n_estimator)
# 调用one-hot编码。
grd_enc = OneHotEncoder()
# 调用LR分类模型。
grd_lm = LogisticRegression()


'''使用X_train训练GBDT模型，后面用此模型构造特征'''
grd.fit(X_train, y_train)

# fit one-hot编码器
grd_enc.fit(grd.apply(X_train)[:, :, 0])

''' 
使用训练好的GBDT模型构建特征，然后将特征经过one-hot编码作为新的特征输入到LR模型训练。
'''
grd_lm.fit(grd_enc.transform(grd.apply(X_train_lr)[:, :, 0]), y_train_lr)
# 用训练好的LR模型多X_test做预测
y_pred_grd_lm = grd_lm.predict_proba(grd_enc.transform(grd.apply(X_test)[:, :, 0]))[:, 1]
# 根据预测结果输出
fpr_grd_lm, tpr_grd_lm, _ = roc_curve(y_test, y_pred_grd_lm)

总结 :

对于样本量大的数据 , 线性模型具有训练速度快的特点 , 但线性模型学习能力限于线性可分数据 , 所以就需要特征工程将数据尽可能地从输入空间转换到线性可分的特征空间。GBDT与LR的融合模型 , 其实使用GBDT来发掘有区分度的特征以及组合特征 , 来替代人工组合特征。工业中GBDT+LR、GBDT+FM都是应用比较广泛。

参考文档 : http://blog.csdn.net/shine19930820/article/details/71713680

GBDT&&RF

GBDT和随机森林都是基于决策树而得到的。决策树比较不易受到离群点和缺失值的影响。决策树不考虑空间分布 , 也不考虑分类器的结构吗是一种无参算法。但是决策树比较容易过拟合 , 另外 , 决策树不易处理连续型变量。

GBDT&RF&XGBoost&LightGBM

RF (随机森林)

RF是Bagging算法的优化版本 , 改进一 : 基学习器限定为决策树 , 改进二 : 除了bagging在样本上加上扰动 , 同时属性上也加上了扰动 , 即在决策树学习的过程中引入了随机属性选择 , 即不止有样本的随机选择还有属性的随机选择。

RF和Bagging对比 :

RF的起始性能较差 , 特别当只有一个基学习器时 , 随着学习器数目增多 , 随机森林通常会收敛到更低的泛化误差。随机森林的训练效率也会高于Bagging , 因为单个决策树在构建中 , Bagging使用的是’确定性’决策树 , 在选择特征划分结点时 , 要对所有的特征进行考虑 , 而随机森林使用的是’随机性’特征数 , 只需要考虑特征的子集。

RF优缺点 :

**优点 : ** 训练可以高度并行化 , 对于大数据时代的大样本训练速度有优势 ; 能够处理高维的数据 , 并且不用特征选择 , 而且在训练完后 , 给出特征的重要性 ; 相对于Boosting系列的Adaboost和GBDT , RF实现比较简单。

**缺点 : **在噪声较大的分类或者回归问题上容易过拟合。

ET(极端随机数) Extra-Trees :

**ET的原理 : **算法与随机算法十分相似 , 都是由许多决策树构成。但是与随机森林有两点主要的区别 :

对于每个决策树的训练集 , RF采用的是随机采样bootstrap来选择采样集作为每一个决策树的训练集 , 而extra trees一般不采用随机采样 , 即每个决策树采用原始训练集
在选定了划分特征后 , RF的决策树会基于信息增益 , 基尼系数 , 均方差之类的原则 , 选择一个最优的特征划分点 , 这和传统的决策树相同。但是extra trees比较激进 , 它会随机的选择一个特征值来划分决策树。

ET随机选择特征值的解释 :

当特征属性是类别的形式时，随机选择具有某些类别的样本为左分支，而把具有其他类别的样本作为右分支；当特征属性是数值的形式时，随机选择一个处于该特征属性的最大值和最小值之间的任意数，当样本的该特征属性值大于该值时，作为左分支，当小于该值时，作为右分支。这样就实现了在该特征属性下把样本随机分配到两个分支上的目的。然后计算此时的分叉值（如果特征属性是类别的形式，可以应用基尼指数；如果特征属性是数值的形式，可以应用均方误差）。遍历节点内的所有特征属性，按上述方法得到所有特征属性的分叉值，我们选择分叉值最大的那种形式实现对该节点的分叉。

ET与RF的对比 :

由于随机选择了特征值的划分点位 , 而不是最优点位 , 这样会导致生成的决策树的规模一般会大于RF所生成的决策树。也就是说 , **模型的方差相对于RF进一步减少 , **但是偏差相对于RF进一步增大。在某些时候 , extra trees的泛化能力比RF更好。

GBDT(梯度提升决策树) :

GBDT原理 :

GBDT是集成学习Boosting家族的成员，是对提升树的改进。提升树是加法模型、学习算法为前向分布算法时的算法。不过它限定基本学习器为决策树。对于二分类问题，损失函数为指数函数，就是把AdaBoost算法中的基本学习器限定为二叉决策树就可以了；对于回归问题，损失函数为平方误差，此时，拟合的是当前模型的残差。梯度提升树GBDT是对提升树算法的改进，提升树算法只适合误差函数为指数函数和平方误差，对于一般的损失函数，梯度提升树算法利用损失函数的负梯度在当前模型的值，作为残差的近似值。

**GBDT建树关键点 : **采用ensemble决策树而非单棵树 ; 建树采用GBDT而非RF

为什么建树采用ensemble决策树?
- 一棵树的表达能力很弱 , 不足以表达多个有区分性的特征组合 , 多棵树的表达能力更强一些。GBDT每棵树都在学习前面树尚存的不足 , 迭代多少次就会生成多少棵树。多棵树正好满足LR每条训练样本可以通过GBDT映射成多个特征的需求。
为什么采用GBDT而非RF?
- RF也是多棵树 , 但从效果上有实践证明不如GBDT。而且GBDT前面的树 , 特征分裂主要体现对多数样本有区分度的特征 ; 后面的树 , 主要体现在是经过前N棵树 , 残差仍然较大的少数样本。有限选用在整体上有区分度的特征 , 在选用针对少数样本有区分度的特征 , 思路更加合理 , 这应该也是用GBDT的原因。

GBDT与Boosting的区别 :

GBDT与传统Boosting区别较大 , 它的每一次计算都是为了减少上一次的残差 , 而为了消除残差 , 我们可以在残差减小的梯度方向上建立模型 , 所以说 , 在GradienBoost中 , 每个新的模型的建立是为了使得之前的模型的残差往残差梯度下降的方向 , 与传统的Boosting中关注正确错误样本的加权有着很大的区别。

GBDT优缺点 :

**优点 : **它能灵活的处理各种类型的数据 ; 在相对较少的调参时间下 , 预测的准确度较高 , 相对于SVM来说的。

**缺点 : **基学习器之间存在串行关系 , 难以并行训练数据。

XGBoost

XGBoost的原理认识 :

XGBoost是Boosting算法的其中一种 , Boosting算法的思想是将许多弱分类器集成在一起 , 形成一个强分类器。因为XGBoost是一种提升树模型 , 所以它是将许多书模型集成在一起 , 形成一个很强的分类器。XGBoost是极端梯度提升树 , 其基本思想 : 一棵树一棵树逐渐地往模型里面加 , 每加一棵Cart决策树时 , 要使得整体的效果(目标函数有所下降)有所提升。使用多棵决策树(多个单一的弱分类器)构成组合分类器 , 并且给每个叶子节点赋予一定的权值。

XGBoost的优点 :

XGBoost算法可以给预测模型带来能力的提升。

正则化 : XGBoost是以"正则化提升(regularized boosting)"技术而闻名。XGBoost早代价函数里加入了正则项 , 用于控制模型的复杂度。正则项里包含了树的叶子节点个数 , 每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff(偏差-方差权衡)角度来讲 , 正则项降低了模型的方差 , 使学习出来的模型更加简单 , 防止过拟合 , 这也是XGBoost优于传统GBDT的一个特征。
并行处理 : XGBoost工具支持并行。决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），Xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分类时，需要计算每个特征的增益，大大减少计算量。这个block结构也使得并行成为了可能，在进行节点的分裂的时候，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。
灵活性 : ** XGBoost支持用户自定义目标函数和评估函数** , 只要目标函数二阶可导就行。它对模型增加了一个全新的维度 , 所以我们的处理不会受到任何限制。
**缺失值处理 : **对于特征的值有缺失的样本 , XGBoost可以自动学习出它的分裂方向。XGBoost内置处理缺失值的规则。用户需要提供一个和其他样本不同的值 , 然后把它作为一个参数传进去 , 以此来作为缺失值的取值。XGBoost在不同节点遇到缺失值时采用不同的处理方法 , 并且会学习未来遇到缺失值时的处理方法。
**剪枝 : **XGBoost先从顶到底建立所有可以建立的子树 , 再从底到顶反向进行剪枝 , 比起GBM , 这样不容易陷入局部最优解
**内置交叉验证 : **XGBoost允许在每一轮Boosting迭代中使用交叉验证。因此可以方便的获得最优Boosting迭代次数 , 而GBM使用网格搜索 , 只能检测有限个值。

XGBoost的离线安装 :

1，点击此处，下载对应自己Python版本的网址。

2 , 输入安装代码 : pip install xgboost-0.81-cp37-cp37m-win_amd64.whl

XGBoost目标函数 = 训练误差 + 正则化惩罚项 ===> Obj(θ) = L(θ) + Ω(θ)

XGBoost也是拟合的在数据上的残差，但是它是用泰勒展式对模型损失残差的近似；同时XGBoost对模型的损失函数进行的改进，并加入了模型复杂度的正则项。

Boosting的最大好处在于，每一步的残差计算其实变相地增大了分错instance的权重，而已经分对的instance则都趋向于0。这样后面的树就能越来越专注那些前面被分错的instance。

XGBoost模型详解

1 , XGBoost能加载的各种数据格式解析

XGBoost可以加载多种数据格式的训练数据 :

libsvm 格式的文本数据 ; 
Numpy 的二维数组 ; 
XGBoost 的二进制的缓存文件。加载的数据存储对象在DMatrix中。

加载libsvm格式的数据 : dtrain1 = xgb.DMatrix('train.svm.txt')
加载二进制的缓存文件 : dtrain2 = xgb.DMatrix('train.svm.buffer')
加载numpy的数组 :

data = np.random.rand(5,10) # 5改行10列数据集
label = np.random.randint(2,size=5) # 二分类目标值
dtrain = xgb.DMatrix(data, label = label) # 组成训练集

将scipy.sparse格式的数据转化为DMatrix格式

dtrain = xgb.DMatrix('train.svm.txt')
dtrain.save_binary("train.buffer")

可以使用如下方式处理DMatrix中的缺失值dtrain = xgb.DMatrix(data , label=label , missing=-999.0)

当需要给样本设置权重时 , 可以用如下方式 :

w = np.random.rand(5,1)
dtrain = xgb.DMatrix(data,label = label,missing=-999.0,weight=w)

2 , XGBoost的模型参数**

XGBoost使用key-value字典的方式存储参数

在运行XGBoost之前 , 必须设置三种类型参数 : general parameters，booster parameters和task parameters

**通用参数(General Parameters) : **该参数控制在提升（boosting）过程中使用哪种booster，常用的booster有树模型（tree）和线性模型（linear model）
Booster参数（Booster Parameters）：这取决于使用哪种booster
学习目标参数（Task Parameters）：控制学习的场景，例如在回归问题中会使用不同的参数控制排序

# xgboost模型
params = {
    ##### 2.1通用参数
    'booster':'gbtree', # 有两种模型可以选择gbtree和gblinear。gbtree使用基于树的模型进行提升计算 , gblinear使用线性模型进行提升计算。缺省(默认)值为gbtree
    'silent':0,  # 设置成1 则没有运行信息输入，最好是设置成0 ; 默认为0
    'nthread':7,  #CPU线程数 , 默认值为当前系统可以获得的最大线程数
    # verbosity：[默认 =1] 打印消息的详细程度，有效值为0（静默），1（警告），2（信息），3（调试）。有时，XGBoost会尝试根据启发式更改配置，启动式显示为警告消息。如果出现意外，请尝试增加详细程度。
    
    # num_pbuffer : 预测缓冲区大小 , 通常设置为训练实例的数目。缓冲用于保存最后一步提升的预测结果 , 无需人为设置。
    # num_feature : Boosting过程中用到的特征维数 , 设置为特征个数 , XGBoost会自动设置 , 无需人为设置
    # disable_default_eval_metric ：[默认 = 0] 标记以禁止默认度量标准，设置为> 0 以禁止。
    
    ##### 2.2 tree booster参数
    'eta':0.007,  # 如同学习率 , 为了防止过拟合 , 更新过程中用到的收缩步长。在每次提升计算之后 , 算法会直接获得新特征的权重。eta通过缩减特征的权重式计算过程更加保守。默认值为0.3 , 取值范围:[0,1] , 典型值为:0.01-0.2
    'gamma':0.1,    # 用于控制是否后剪枝的参数，越大越保守，一般0.1 0.2的样子。在节点分裂时 , 只有分裂后损失函数的值下降了 , 才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。这个参数值越大 , 算法越保守。取值范围为:[0,∞)
    'max_depth':12,  # 构建树的深度，越大越容易过拟合。默认值为6 , 取值范围为 :[0,∞) , 要使用CV函数来进行调优。典型值：3-10
    # max_delta_step [default=0] ：我们允许每个树的权重被估计的值。如果它的值被设置为0，意味着没有约束；如果它被设置为一个正值，它能够使得更新的步骤更加保守。通常这个参数是没有必要的，但是如果在逻辑回归中类极其不平衡这时候他有可能会起到帮助作用。把它范围设置为1-10之间也许能控制更新。 取值范围为：[0,∞)
    # min_child_weight [default=1] ：孩子节点中最小的样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束。在现行回归模型中，这个参数是指建立每个模型所需要的最小样本数。这个参数用于避免过拟合。当它的值较大时，可以避免模型学习到局部的特殊样本。但是如果这个值过高，会导致欠拟合。这个参数需要使用CV来调整。取值范围为：[0,∞]
    'subsample':0.7, # 随机采样训练样本 , 用于训练模型的子样本占整个样本集合的比例。取值范围是:(0,1] ,默认为1
    'colsample_bytree':3,# 这个参数默认为1，是每个叶子里面h的和至少是多少
    # 对于正负样本不均衡时的0-1分类而言，假设h在0.01附近，min_child_weight为1
    #意味着叶子节点中最少需要包含100个样本。这个参数非常影响结果，
    # 控制叶子节点中二阶导的和的最小值，该参数值越小，越容易过拟合
    # colsample_bytree , colsample_bylevel , colsample_bynode [默认 =1] 这是对列的子采样参数家族，所有的colsample_by* 参数的范围均为（0,1），默认值为1.

　　# colsample_bytree [default=1] ：在建立树时对特征采样的比例。缺省值为1 。取值范围为：(0,1]

　　# colsample_bylevel ：是每个级别的列的子采样率，对于树中达到的每个新深度级别，子采样都会发生一次，列是从当前树的列集中进行子采样的。

　　# colsample_bynode：是每个节点（拆分）的列的子采样率。每次评估新的拆分时，都会发生一次子采样。列是从为当前级别选择的列集中进行二次采样的。

　　# colsample_by* ：参数累积起作用。例如，与64个功能的组合将在每个拆分中留下4个功能可供选择。
{'colsample_bytree':0.5, 'colsample_bylevel':0.5, 'colsample_bynode':0.5}

    
    ##### 2.3 Linear Booster参数
    'lambda':2,  # 控制模型复杂度的权重值的L2 正则化项参数，参数越大，模型越不容易过拟合 , 默认值1
    # 'alpha'[default = 1]：L1正则的惩罚系数，增加此值可以使模型更加保守
    # lambda_bias：在偏置上的L2正则。缺省(默认)值为0（在L1上没有偏置项的正则，因为L1偏置时不需要）
    
    ##### 2.4 学习目标参数
    'objective':'multi:softmax',   # 多分类问题
    # objective[default = reg:linear] ：定义学习任务及相应的学习目标，可选择的目标函数如下：

    # "reg:linear" —— 线性回归。
    # "reg:logistic"—— 逻辑回归。
    # "binary:logistic"—— 二分类的逻辑回归问题，输出为概率。
    # "binary:logitraw"—— 二分类的逻辑回归问题，输出的结果为wTx。
    # "count:poisson"—— 计数问题的poisson回归，输出结果为poisson分布。在poisson回归中，max_delta_step的缺省值为0.7。(used to safeguard optimization)
    # "multi:softmax" –让XGBoost采用softmax目标函数处理多分类问题，同时需要设置参数num_class（类别个数）
    # "multi:softprob" –和softmax一样，但是输出的是ndata * nclass的向量，可以将该向量reshape成ndata行nclass列的矩阵。没行数据表示样本所属于每个类别的概率。
    # "rank:pairwise" –set XGBoost to do ranking task by minimizing the pairwise loss
	# base_score[default = 0.5]: 所有实例的初始化预测分数，全局偏置；当有足够的迭代次数时，改变这个值将不会有太大的影响
    'seed':1000,# 随机数的种子 , 默认为0
    #'eval_metric':'auc' 校验数据所需要的评价指标，不同的目标函数将会有缺省的评价指标（rmse for regression and error for classification  mean average precision for ranking）
    'num_class':10,  # 类别数，与multi softmax并用
       
}
    # 3 基本方法和默认参数
    # xgboost.train(params,dtrain,num_boost_round=10,evals(),obj=None,feval=None,maximize=False,early_stopping_rounds=None,evals_result=None,verbose_eval=True,learning_rates=None,xgb_model=None)
	# parms：这是一个字典，里面包含着训练中的参数关键字和对应的值，形式是parms = {'booster':'gbtree','eta':0.1}
　　# dtrain：训练的数据
　　# num_boost_round：这是指提升迭代的个数
　　# evals：这是一个列表，用于对训练过程中进行评估列表中的元素。形式是evals = [(dtrain,'train'),(dval,'val')] 或者是 evals =[(dtrain,'train')] ，对于第一种情况，它使得我们可以在训练过程中观察验证集的效果。
　　# obj ：自定义目的函数
　　# feval：自定义评估函数
　　# maximize：是否对评估函数进行最大化
　　# early_stopping_rounds：早期停止次数，假设为100，验证集的误差迭代到一定程度在100次内不能再继续降低，就停止迭代。这要求evals里至少有一个元素，如果有多个，按照最后一个去执行。返回的是最后的迭代次数（不是最好的）。如果early_stopping_rounds存在，则模型会生成三个属性，bst.best_score ,bst.best_iteration和bst.best_ntree_limit
　　# evals_result：字典，存储在watchlist中的元素的评估结果
　　# verbose_eval（可以输入布尔型或者数值型）：也要求evals里至少有一个元素，如果为True，则对evals中元素的评估结果会输出在结果中；如果输入数字，假设为5，则每隔5个迭代输出一次。
　　# learning_rates：每一次提升的学习率的列表
　　# xgb_model：在训练之前用于加载的xgb_model

#### 4 模型训练
num_round = 10
bst = xgb.train( plst, dtrain, num_round, evallist )

#### 5 模型预测
# X_test类型可以是二维List，也可以是numpy的数组
dtest = DMatrix(X_test)
ans = model.predict(dtest)

#### 6 保存模型
bst.save_model('test.model')

# 6.1 导出模型和特征映射（Map）
# 6.2 导出模型到文件
bst.dump_model('dump.raw.txt')
# 6.3 导出模型和特征映射
bst.dump_model('dump.raw.txt','featmap.txt')

#### 7 加载模型
bst = xgb.Booster({'nthread':4})#init model
bst.load_model("model.bin")   # load data

XGBoost实战代码 :

Xgboost有两大类接口：Xgboost原生接口和sklearn接口，并且Xgboost能够实现分类回归两种任务。下面对这四种情况做以解析。

1，基于Xgboost原生接口的分类

from sklearn.datasets import load_iris
import xgboost as xgb
from xgboost import plot_importance
import matplotlib.pyplot  as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score  # 准确率
 
# 记载样本数据集
iris = load_iris()
X,y = iris.data,iris.target
# 数据集分割
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=123457)
 
# 算法参数
params = {
    'booster':'gbtree',
    'objective':'multi:softmax',
    'num_class':3,
    'gamma':0.1,
    'max_depth':6,
    'lambda':2,
    'subsample':0.7,
    'colsample_bytree':0.7,
    'min_child_weight':3,
    'slient':1,
    'eta':0.1,
    'seed':1000,
    'nthread':4,
}
 
plst = params.items()
 
# 生成数据集格式
dtrain = xgb.DMatrix(X_train,y_train)
num_rounds = 500
# xgboost模型训练
model = xgb.train(plst,dtrain,num_rounds)
 
# 对测试集进行预测
dtest = xgb.DMatrix(X_test)
y_pred = model.predict(dtest)
 
# 计算准确率
accuracy = accuracy_score(y_test,y_pred)
print('accuarcy:%.2f%%'%(accuracy*100))
 
# 显示重要特征
plot_importance(model)
plt.show()
# 　输出预测正确率以及特征重要性：
# 	accuarcy:93.33%

2，基于Xgboost原生接口的回归


import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
from sklearn.metrics import mean_squared_error
 
# 加载数据集,此数据集时做回归的
boston = load_boston()
X,y = boston.data,boston.target
 
# Xgboost训练过程
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)
 
# 算法参数
params = {
    'booster':'gbtree',
    'objective':'reg:gamma',
    'gamma':0.1,
    'max_depth':5,
    'lambda':3,
    'subsample':0.7,
    'colsample_bytree':0.7,
    'min_child_weight':3,
    'slient':1,
    'eta':0.1,
    'seed':1000,
    'nthread':4,
}
 
dtrain = xgb.DMatrix(X_train,y_train)
num_rounds = 300
plst = params.items()
model = xgb.train(plst,dtrain,num_rounds)
 
# 对测试集进行预测
dtest = xgb.DMatrix(X_test)
ans = model.predict(dtest)
 
# 显示重要特征
plot_importance(model)
plt.show()
# 重要特征（值越大，说明该特征越重要

3，Xgboost使用sklearn接口的分类（推荐） ---- XGBClassifier

from xgboost.sklearn import XGBClassifier
 
clf = XGBClassifier(
    silent=0,  # 设置成1则没有运行信息输出，最好是设置为0，是否在运行升级时打印消息
    # nthread = 4  # CPU 线程数 默认最大
    learning_rate=0.3 , # 如同学习率
    min_child_weight = 1,
    # 这个参数默认为1，是每个叶子里面h的和至少是多少，对正负样本不均衡时的0-1分类而言
    # 假设h在0.01附近，min_child_weight为1 意味着叶子节点中最少需要包含100个样本
    # 这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易过拟合
    max_depth=6, # 构建树的深度，越大越容易过拟合
    gamma = 0,# 树的叶子节点上做进一步分区所需的最小损失减少，越大越保守，一般0.1 0.2这样子
    subsample=1, # 随机采样训练样本，训练实例的子采样比
    max_delta_step=0,  # 最大增量步长，我们允许每个树的权重估计
    colsample_bytree=1, # 生成树时进行的列采样
    reg_lambda=1, #控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合
    # reg_alpha=0, # L1正则项参数
    # scale_pos_weight =1 # 如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛，平衡正负权重
    # objective = 'multi:softmax', # 多分类问题，指定学习任务和响应的学习目标
    # num_class = 10,  # 类别数，多分类与multisoftmax并用
    n_estimators=100,  # 树的个数
    seed = 1000,  # 随机种子
    # eval_metric ='auc'
)

基于Sckit-learn接口的分类


from sklearn.datasets import load_iris
import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
 
# 加载样本数据集
iris = load_iris()
X,y = iris.data,iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343)
 
# 训练模型
model = xgb.XGBClassifier(max_depth=5,learning_rate=0.1,n_estimators=160,silent=True,objective='multi:softmax')
model.fit(X_train,y_train)
 
# 对测试集进行预测
y_pred = model.predict(X_test)
 
#计算准确率
accuracy = accuracy_score(y_test,y_pred)
print('accuracy:%2.f%%'%(accuracy*100))
 
# 显示重要特征
plot_importance(model)
plt.show()

4，基于Scikit-learn接口的回归


import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
 
# 导入数据集
boston = load_boston()
X ,y = boston.data,boston.target
 
# Xgboost训练过程
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)
 
model = xgb.XGBRegressor(max_depth=5,learning_rate=0.1,n_estimators=160,silent=True,objective='reg:gamma')
model.fit(X_train,y_train)
 
# 对测试集进行预测
ans = model.predict(X_test)
 
# 显示重要特征
plot_importance(model)
plt.show()

Xgboost参数调优的一般方法

调参步骤：

1，选择较高的学习速率（learning rate）。一般情况下，学习速率的值为0.1.但是，对于不同的问题，理想的学习速率有时候会在0.05~0.3之间波动。选择对应于此学习速率的理想决策树数量。Xgboost有一个很有用的函数“cv”，这个函数可以在每一次迭代中使用交叉验证，并返回理想的决策树数量。

2，对于给定的学习速率和决策树数量，进行决策树特定参数调优（max_depth , min_child_weight , gamma , subsample,colsample_bytree）在确定一棵树的过程中，我们可以选择不同的参数。

3，Xgboost的正则化参数的调优。（lambda , alpha）。这些参数可以降低模型的复杂度，从而提高模型的表现。

4，降低学习速率，确定理想参数。

下面详细的进行这些操作。

第一步：确定学习速率和tree_based参数调优的估计器数目

为了确定Boosting参数，我们要先给其他参数一个初始值。咱们先按照如下方法取值：

1，max_depth = 5：这个参数的取值最好在3-10之间，我选的起始值为5，但是你可以选择其他的值。起始值在4-6之间都是不错的选择。
2，min_child_weight = 1 ：这里选择了一个比较小的值，因为这是一个极不平衡的分类问题。因此，某些叶子节点下的值会比较小。
3，gamma = 0 :起始值也可以选择其它比较小的值，在0.1到0.2之间就可以，这个参数后继也是要调整的。
4，subsample,colsample_bytree = 0.8 这个是最常见的初始值了。典型值的范围在0.5-0.9之间。
5，scale_pos_weight =1 这个值时因为类别十分不平衡。

注意，上面这些参数的值知识一个初始的估计值，后继需要调优。这里把学习速率就设成默认的0.1。然后用Xgboost中的cv函数来确定最佳的决策树数量。

第二步：max_depth和min_weight参数调优

我们先对这两个参数调优，是因为他们对最终结果有很大的影响。首先，我们先大范围地粗略参数，然后再小范围的微调。

注意：在这一节我会进行高负荷的栅格搜索（grid search），这个过程大约需要15-30分钟甚至更久，具体取决于你系统的性能，你也可以根据自己系统的性能选择不同的值。

第三步：gamma参数调优

在已经调整好其他参数的基础上，我们可以进行gamma参数的调优了。Gamma参数取值范围很大，这里我们设置为5，其实你也可以取更精确的gamma值。


param_test3 = {
 'gamma':[i/10.0 for i in range(0,5)]
}
 
gsearch3 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1,
 n_estimators=140, max_depth=4,min_child_weight=6, gamma=0,
subsample=0.8, colsample_bytree=0.8,objective= 'binary:logistic',
nthread=4, scale_pos_weight=1,seed=27),  param_grid = param_test3, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
 
gsearch3.fit(train[predictors],train[target])
 
gsearch3.grid_scores_, gsearch3.best_params_, gsearch3.best_score_

第四步：调整subsample 和 colsample_bytree参数

尝试不同的subsample 和 colsample_bytree 参数。我们分两个阶段来进行这个步骤。这两个步骤都取0.6,0.7,0.8,0.9作为起始值。

第五步：正则化参数调优

由于gamma函数提供了一种更加有效的降低过拟合的方法，大部分人很少会用到这个参数，但是我们可以尝试用一下这个参数。

第六步：降低学习速率

最后，我们使用较低的学习速率，以及使用更多的决策树，我们可以用Xgboost中CV函数来进行这一步工作。

总结一下，要想模型的表现有大幅的提升，调整每个参数带来的影响也必须清楚，仅仅靠着参数的调整和模型的小幅优化，想要让模型的表现有个大幅度提升是不可能的。要想模型的表现有质的飞跃，需要依靠其他的手段。诸如，特征工程(feature egineering) ，模型组合(ensemble of model),以及堆叠(stacking)等。

XGBoost输出特征重要性以及筛选特征

1，梯度提升算法是如何计算特征重要性的？

使用梯度提升算法的好处是在提升树被创建后，可以相对直接地得到每个属性的重要性得分。一般来说，重要性分数，衡量了特征在模型中的提升决策树构建中的价值。一个属性越多的被用来在模型中构建决策树，它的重要性就相对越高。

属性重要性是通过对数据集中的每个属性进行计算，并进行排序得到。在单个决策树中通过每个属性分裂点改进性能度量的量来计算属性重要性。由节点负责加权和记录次数，也就是说一个属性对分裂点改进性能度量越大（越靠近根节点），权值越大；被越多提升树所选择，属性越重要。性能度量可以是选择分裂节点的Gini纯度，也可以是其他度量函数。

最终将一个属性在所有提升树中的结果进行加权求和后然后平均，得到重要性得分。

2，绘制特征重要性

一个已训练的Xgboost模型能够自动计算特征重要性，这些重要性得分可以通过成员变量feature_importances_得到。可以通过如下命令打印：

print(model.feature_importances_)

我们可以直接在条形图上绘制这些分数 , 以便获得数据集中每个特征的相对重要性的直观显示 , 例如 :

# plot
pyplot.bar(range(len(model.feature_importances_)),model.feature_importances_)
pyplot.show()

我们可以通过在the Pima Indians onset of diabetes 数据集上训练XGBoost模型来演示，并从计算的特征重要性中绘制条形图。

# plot feature importance manually
from numpy import loadtxt
from xgboost import XGBClassifier
from matplotlib import pyplot
from sklearn.datasets import load_iris
# load data
dataset = load_iris()
# split data into X and y
X = dataset.data
y = dataset.target
# fit model no training data
model = XGBClassifier()
model.fit(X, y)
# feature importance
print(model.feature_importances_)
# plot
pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_)
pyplot.show()

运行这个实例 , 首先输出特征重要性分数以及相对重要性条形图
这种绘制的缺点在于 , 只显示了特征重要性而没有排序 , 可以在绘制之前对特征重要性得分进行排序。通过内建的绘制函数进行特征重要性得分排序后的绘制 , 这个函数就是plot_importance() , 示例如下 :


# plot feature importance manually
from numpy import loadtxt
from xgboost import XGBClassifier
from matplotlib import pyplot
from sklearn.datasets import load_iris
from xgboost import plot_importance
 
# load data
dataset = load_iris()
# split data into X and y
X = dataset.data
y = dataset.target
# fit model no training data
model = XGBClassifier()
model.fit(X, y)
# feature importance
print(model.feature_importances_)
# plot feature importance
 
plot_importance(model)
pyplot.show()

得到特征重要性的条形图并且是排序好的 , 根据其在输入数组的索引 , 特征自动命名为f0~f3 , 在问题描述中手动的将这些索引映射到名称 , 我们可以看到 , f2具有最高的重要性 , f1最低。

3，根据Xgboost特征重要性得分进行特征选择

特征重要性得分，可以用于在scikit-learn中进行特征选择。通过SelectFromModel类实现，该类采用模型并将数据集转换为具有选定特征的子集。这个类可以采取预先训练的模型，例如在整个数据集上训练的模型。然后，它可以阈值来决定选择哪些特征。当在SelectFromModel实例上调用transform()方法时，该阈值被用于在训练集和测试集上一致性选择相同特征。

在下面的示例中，我们首先在训练集上训练xgboost模型，然后在测试上评估。使用从训练数据集计算的特征重要性，然后，将模型封装在一个SelectFromModel实例中。我们使用这个来选择训练集上的特征，用所选择的特征子集训练模型，然后在相同的特征方案下对测试集进行评估。

# select features using threshold
selection = SelectFromModel(model, threshold=thresh, prefit=True)
select_X_train = selection.transform(X_train)
# train model
selection_model = XGBClassifier()
selection_model.fit(select_X_train, y_train)
# eval model
select_X_test = selection.transform(X_test)
y_pred = selection_model.predict(select_X_test)

我们可以通过测试多个阈值，来从特征重要性中选择特征。具体而言，每个输入变量的特征重要性，本质上允许我们通过重要性来测试每个特征子集。

完整代码如下 :

# plot feature importance manually
import numpy as np
from xgboost import XGBClassifier
from matplotlib import pyplot
from sklearn.datasets import load_iris
from xgboost import plot_importance
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.feature_selection import SelectFromModel
 
# load data
dataset = load_iris()
# split data into X and y
X = dataset.data
y = dataset.target
 
# split data into train and test sets
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.33,random_state=7)
 
# fit model no training data
model = XGBClassifier()
model.fit(X_train, y_train)
# feature importance
print(model.feature_importances_)
 
# make predictions for test data and evaluate
y_pred = model.predict(X_test)
predictions = [round(value) for value in y_pred]
accuracy = accuracy_score(y_test,predictions)
print("Accuracy:%.2f%%"%(accuracy*100.0))
 
#fit model using each importance as a threshold
thresholds = np.sort(model.feature_importances_)
for thresh in thresholds:
    # select features using threshold
    selection = SelectFromModel(model,threshold=thresh,prefit=True )
    select_X_train = selection.transform(X_train)
    # train model
    selection_model = XGBClassifier()
    selection_model.fit(select_X_train, y_train)
    # eval model
    select_X_test = selection.transform(X_test)
    y_pred = selection_model.predict(select_X_test)
    predictions = [round(value) for value in y_pred]
    accuracy = accuracy_score(y_test,predictions)
    print("Thresh=%.3f, n=%d, Accuracy: %.2f%%" % (thresh, select_X_train.shape[1], accuracy * 100.0))
    
    # 结果如下 : 
    # [0.20993228 0.09029345 0.54176074 0.15801354]
    # Accuracy:92.00%
    # Thresh=0.090, n=4, Accuracy: 92.00%
    # Thresh=0.158, n=3, Accuracy: 92.00%
    # Thresh=0.210, n=2, Accuracy: 86.00%
    # Thresh=0.542, n=1, Accuracy: 90.00%

我们可以看到，模型的性能通常随着所选择的特征的数量减少，在这一问题上，可以对测试集准确率和模型复杂度做一个权衡，例如选择三个特征，接受准确率为92%，这可能是对这样一个小数据集的清洗，但是对于更大的数据集和使用交叉验证作为模型评估方案可能是更有用的策略。

参考文献：
https://blog.csdn.net/waitingzby/article/details/81610495
https://blog.csdn.net/u011089523/article/details/72812019
https://blog.csdn.net/luanpeng825485697/article/details/79907149
https://xgboost.readthedocs.io/en/latest/parameter.html#general-parameters
原文地址https://www.cnblogs.com/wj-1314/p/9402324.html

XGBoost和传统GBDT的区别 :

传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。
传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。顺便提一下，xgboost工具支持自定义代价函数，只要函数可一阶和二阶求导。
xgboost在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合，这也是xgboost优于传统GBDT的一个特性。
Shrinkage（缩减），相当于学习速率（xgboost中的eta）。xgboost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。实际应用中，一般把eta设置得小一点，然后迭代次数设置得大一点。（补充：传统GBDT的实现也有学习速率）
列抽样（column subsampling）。xgboost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是xgboost异于传统gbdt的一个特性。
对缺失值的处理。对于特征的值有缺失的样本，xgboost可以自动学习出它的分裂方向。XGBoost对于确实值能预先学习一个默认的分裂方向
xgboost工具支持并行。boosting不是一种串行的结构吗?怎么并行的？注意xgboost的并行不是tree粒度的并行，xgboost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含了前面t-1次迭代的预测值）。xgboost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。
可并行的近似直方图算法。树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点

XGBoost使用经验总结

多类别分类时，类别需要从0开始编码
Watchlist不会影响模型训练。
类别特征必须编码，因为xgboost把特征默认都当成数值型的
调参：Notes on Parameter Tuning 以及 Complete Guide to Parameter Tuning in XGBoost (with codes in Python)
训练的时候，为了结果可复现，记得设置随机数种子。
XGBoost的特征重要性是如何得到的？某个特征的重要性（feature score），等于它被选中为树节点分裂特征的次数的和，比如特征A在第一次迭代中（即第一棵树）被选中了1次去分裂树节点，在第二次迭代被选中2次……那么最终特征A的feature score就是 1+2+….

LighGBM与XGBoost的区别 :

（1）xgboost采用的是level-wise的分裂策略，而lightGBM采用了leaf-wise的策略，区别是xgboost对每一层所有节点做无差别分裂，可能有些节点的增益非常小，对结果影响不大，但是xgboost也进行了分裂，带来了务必要的开销。
leaft-wise的做法是在当前所有叶子节点中选择分裂收益最大的节点进行分裂，如此递归进行，很明显leaf-wise这种做法容易过拟合，因为容易陷入比较高的深度中，因此需要对最大深度做限制，从而避免过拟合。
（2）lightgbm使用了基于histogram的决策树算法，这一点不同与xgboost中的 exact 算法，histogram算法在内存和计算代价上都有不小优势。
- -. 内存上优势：很明显，直方图算法的内存消耗为(#data* #features * 1Bytes)(因为对特征分桶后只需保存特征离散化之后的值)，而xgboost的exact算法内存消耗为：(2 * #data * #features* 4Bytes)，因为xgboost既要保存原始feature的值，也要保存这个值的顺序索引，这些值需要32位的浮点数来保存。
- -. 计算上的优势，预排序算法在选择好分裂特征计算分裂收益时需要遍历所有样本的特征值，时间为(#data),而直方图算法只需要遍历桶就行了，时间为(#bin)
（3）直方图做差加速 : 一个子节点的直方图可以通过父节点的直方图减去兄弟节点的直方图得到，从而加速计算。
（4）lightgbm支持直接输入categorical 的feature : 在对离散特征分裂时，每个取值都当作一个桶，分裂时的增益算的是”是否属于某个category“的gain。类似于one-hot编码。
（5）但实际上xgboost的近似直方图算法也类似于lightgbm这里的直方图算法，为什么xgboost的近似算法比lightgbm还是慢很多呢？
- xgboost在每一层都动态构建直方图，因为xgboost的直方图算法不是针对某个特定的feature，而是所有feature共享一个直方图(每个样本的权重是二阶导),所以每一层都要重新构建直方图，而lightgbm中对每个特征都有一个直方图，所以构建一次直方图就够了
（6）lightgbm哪些方面做了并行？
- feature parallel : 一般的feature parallel就是对数据做垂直分割（partiion data vertically，就是对属性分割），然后将分割后的数据分散到各个workder上，各个workers计算其拥有的数据的best splits point, 之后再汇总得到全局最优分割点。但是lightgbm说这种方法通讯开销比较大，lightgbm的做法是每个worker都拥有所有数据，再分割？（没懂，既然每个worker都有所有数据了，再汇总有什么意义？这个并行体现在哪里？？）
- data parallel : 传统的data parallel是将对数据集进行划分，也叫平行分割(partion data horizontally)，分散到各个workers上之后，workers对得到的数据做直方图，汇总各个workers的直方图得到全局的直方图。 lightgbm也claim这个操作的通讯开销较大，lightgbm的做法是使用”Reduce Scatter“机制，不汇总所有直方图，只汇总不同worker的不同feature的直方图(原理？)，在这个汇总的直方图上做split，最后同步。

LR(逻辑斯特回归)

逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。

LR是广义线性模型，与传统线性模型相比，LR使用了Logit变换将函数值映射到0~1区间[2]，映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化，处理上亿条训练样本不是问题，但线性模型学习能力有限，需要大量特征工程预先分析出有效的特征、特征组合，从而去间接增强LR的非线性学习能力。

逻辑回归从以下5方面来叙述 :

逻辑回归的假设
逻辑回归的损失函数
逻辑回归的求解方法
逻辑回归的目的
逻辑回归如何分类

逻辑回归的基本假设

任何模型都是有自己的假设 , 在这个假设模型下才是适用的。逻辑回归的第一个基本假设是假设数据服从伯努利分布。伯努利分布有一个简单的例子是抛硬币 , 抛中为正面的概率为p , 为负面的概率为1-p. 在逻辑回归这个模型里面是假设hθ(x)为样本为正的概率 , 1-hθ(x)为样本为负的概率。那么整个模型可以描述为hθ(x;θ)=p
逻辑回归的第二个假设是假设样本为正的概率是p=1/(1+exp(−θ^Tx))
所以逻辑回归的最终形式 : hθ(x;θ)=1/(1+exp(−θ^Tx))

逻辑回归的损失函数

逻辑回归的损失函数是它的极大似然函数
- Lθ(x)=∏hθ(xⁱ; θ)^yi∗(1−hθ(xⁱ;θ))^(1−yi) (i=1->m)

逻辑回归的求解方法

由于该极大似然函数无法直接求解 , 我们一般通过对该函数进行梯度下降来不断逼近最优解。梯度下降分为随机梯度下降 , 批梯度下降 , small batch梯度下降三种方式
- BGD(批量梯度下降)会获得全局最优解 , 缺点是在更新每个参数的时候需要遍历所有的数据 , 计算量会很大 , 并且有很多的冗余计算 , 导致的结果是当数据量大的时候 , 每个参数的更新都会很慢。
- SGD(随机梯度下降)是以高方差频繁更新 , 优点是使得SGD会调到新的和潜在更好的局部最优解 , 缺点是使得收敛局部最优解的过程更加复杂
- min-batch(小批量梯度)结合了SGD和BGD的优点 , 每次更新的时候使用n个样本。减少了参数更新的次数 , 可以达到更加稳定收敛结果 , 一般在深度学习中我们采用这种方法。
Adam , 动量法等优化方法—自适应优化算法 , 由于上述方法有两个致命问题
- 如何对模型选择合适的学习率。自始至终保持同样的学习率其实不太合适。因为一开始参数刚刚开始学习的时候 , 此时的参数和最优解隔得比较远 , 需要保持一个较大的学习率尽快逼近最优解。但是学习到后面的时候 , 参数和最优解已经隔得比较近了 , 你还保持最初的学习率 , 容易越过嘴有点 , 在最优点附近来回振荡 , 通俗点说 , 就很容易学过头了 , 跑偏了。
- 如何对参数选择合适的学习率。对每个参数都保持同样的学习率也是很不合理的。有些参数更新频繁 , 那么学习率可以适当小一点。有些参数更新缓慢 , 那么学习率就应该大一点。

逻辑回归的目的

该函数的目的便是将数据二分类 , 提高准确率。

逻辑回归如何分类

逻辑回归作为一个回归(也就是y值是连续的) , 如何应用到分类上去呢?y值确实是一个连续的变量。逻辑回归的做法是划定一个阈值 , y值大于这个阈值的是一类 , y值小于这个阈值是另外一类。阈值具体如何调整根据实际情况选择.一般会选择0.5作为阈值来划分。

关于LR的疑问

逻辑回归的损失函数为什么要使用极大似然函数作为损失函数??
- 损失函数一般有四种 , 平方损失函数 , 对数损失函数 , HingeLoss0-1损失函数 , 绝对值损失函数。将极大似然函数取对数以后等同于对数损失函数。在逻辑回归这个模型下 , 对数损失函数的训练求解参数的速度是比较快的。
  - θj=θj−(yⁱ−hθ(xⁱ;θ))∗xⁱj
  - 这个式子的更新速度只跟xⁱj, yⁱ相关。和sigmod函数本身的梯度是无关的。这样更新的速度是可以自始至终都比较的稳定。
- 为什么不选平方损失函数 : 其一是因为如果你是用平方损失函数 , 你会发现梯度更新的速度和sigmod函数本身的梯度是很相关的。sigmod函数在它的定义域内的梯度都不大于0.25。这样训练会非常慢。
逻辑回归在训练的过程当中 , 如果有很多的特征高度相关或者说有一个特征重复了100遍 , 会造成怎样的影响?
- 如果在损失函数最终收敛的情况下 , 其实就算有很多特征高度相关也不会影响分类器的效果。
- 但是对于特征本身来说的话 , 假设只有一个特征 , 在不考虑采样的情况下 , 将其重复100遍。训练完以后 , 数据还是这么多 , 但是这个特征本身重复了100遍 , 实质上将原来的特征分成了100份 , 每一个特征都是原来特征权重值的百分之一。
- 如果在随机采样的情况下 , 其实训练收敛完以后 , 还是可以认为这100个特征和原来那一个特征扮演的效果一样 , 只是可能中间很多特征的值正负相消了。
为什么我们还是会在训练的过程当中将高度相关的特征去掉?
- 去掉高度相关的特征会让模型的可解释性更好
- 可以大大提高训练的速度。如果模型当中有很多特征高度相关的话。就算损失函数本身收敛了 , 但实际上参数是没有收敛的 , 这样会拉低训练的速度。其次是特征多了 , 本身就会增大训练的时间。

逻辑回归的优缺点总结

**优点 : **
- 形式简单 , 模型的可解释性非常好。从特征的权重可以看到不同的特征对最后结果的影响 , 某个特征的权重值比较高 , 那么这个特征最后对结果的影响会比较大。
- 模型效果不错。在工程上是可以接受的(作为baseline) , 如果特征工程做的好 , 效果不会太差 , 并且特征工程可以大家并行开发 , 大大加快开发的速度。
- 训练速度较快。分类的时候 , 计算量仅仅只和特征的数目相关。并且逻辑回归的分布式优化SGD发展比较成熟 , 训练的速度可以通过堆机器进一步提高 , 这样我们可以在短时间内迭代还几个版本的模型
- 资源占用小 , 尤其是内存。因为只需要存储各个维度的特征值。
- 方便输出结果调整。逻辑回归可以很方便的的到最后的分类结果 , 因为输出的是每个样本的概率分数 , 我们可以很容易的对这些概率分数进行cutoff , 也就是划分阈值(大于某个阈值的哪一类 , 小于某个阈值的是哪一类)
缺点
- 准确率并不是很高。因为形式非常的简单(非常类似线性模型) , 很难去拟合数据的真实分布。
- 很难处理数据不平衡的问题。如果我们对于一个正负样本非常不平衡的问题比如正负样本比10000:1 , 我们把所有样本都预测为正也能使损失函数的值比较小 , 但是作为一个分类器 , 它对正负样本的区分能力不会很好。
- 处理非线性数据比较麻烦。逻辑回归在不引入其他方法的情况下 , 只能处理线性可分的数据 , 或者进一步说 , 处理二分类的问题。
- 逻辑回归本身无法筛选特征。有时候我们会用gbdt来筛选特征 , 然后再进入逻辑回归。

Regression问题的常规步骤为 :

寻找h函数(即假设估计的函数)
构造J函数(损失函数)
想办法使得J函数最小并求得回归参数(θ)
数据拟合问题

当梯度下降到一定数值后 , 每次迭代的变化很小 , 这时可以设定一个阈值 , 只要变化小于该阈值 , 就停止迭代 , 而得到的结果也近似于最优解。
若损失函数的值不断变大 , 则有可能是步长速率a太大 , 导致算法不收敛 , 这时可适当调整a值

对于样本数量非常之多的情况 , 普通的批量梯度下降算法(BGD)会非常耗时 , 靠近极小值是收敛速度减慢 , 因为每次迭代都要遍历所有样本 , 这时可以选择随机梯度下降算法(SGD)

梯度下降需要把m个样本全部带入计算 , 迭代一次计算量为m*n^2 ; 随机梯度下降每次只使用一个样本 , 迭代一次计算量为n^2 , 当m很大时 , 随机梯度下降迭代一次的速度要远高于梯度下降 , 虽然不是每次迭代得到的损失函数都想着全局最优方向 , 但是**整体的方向都是向全局最优解的 , 最终的结果往往是在全局最优解附近 **。

数据拟合问题 :

欠拟合 , 通常是因为特征量选少了
- 增加特征量
过拟合 , 通常是因为特征量选多了
- 减少特征量或者正则化
需要的数据

CTR预估中GBDT&LR融合

在CTR预估中 , 如何使用ad_id是一个问题 :
直接将ad_id作为特征建树不可行 , 而one-hot编码过于稀疏 , 为每个ad_id建GBDT树 , 相当于发掘出区分每个广告的特征。而对于曝光不充分的样本即长尾分布 , 无法单独建树。

综合方案为 : 使用GBDT对非ID和ID分别建一类树。

非ID类树 : 不以细粒度的ID建树 , 此类树作为base , 即这些ID一起构建GBDT。即便曝光少的广告、广告主 , 仍可以通过此类树得到有区分的特征、特征组合。
ID类树 : 以细粒度的ID建一类树(每个ID构建GBDT) , 用于发现曝光充分的ID对应有区分性的特征、特征组合。如下图 , 当一条样本x进来之后 , 遍历两类树到叶子节点 , 得到的特征作为LR的输入。当AD曝光不充分不足以训练树时 , 其他树恰好作为补充。

总结

对于样本量大的数据 , 线性模型具有训练速度快的特点 , 但线性模型学习能力限于线性可分数据 , 所以就需要特征工程将数据尽可能地从输入空间转换到线性可分的特征空间。GBDT与LR的融合模型 , 其实使用GBDT来发掘有区分度的特征以及组合特征 , 来替代人工组合特征。

融合代码实现 :

import numpy as np # 快速操作结构数组的工具
import matplotlib.pyplot as plt  # 可视化绘制
from sklearn.linear_model import LinearRegression  # 线性回归
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier,RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score,roc_curve,auc
from sklearn.preprocessing import OneHotEncoder


# 弱分类器的数目
n_estimator = 10
# 随机生成分类数据。
X, y = make_classification(n_samples=80000,n_features=20,n_classes=2)

# 切分为测试集和训练集，比例0.5
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)
# 将训练集切分为两部分，一部分用于训练GBDT模型，另一部分输入到训练好的GBDT模型生成GBDT特征，然后作为LR的特征。这样分成两部分是为了防止过拟合。
X_train_gbdt, X_train_lr, y_train_gbdt, y_train_lr = train_test_split(X_train, y_train, test_size=0.5)
# 调用GBDT分类模型。
gbdt = GradientBoostingClassifier(n_estimators=n_estimator)
# 调用one-hot编码。
one_hot = OneHotEncoder()
# 调用LR分类模型。
lr = LogisticRegression()


'''使用X_train训练GBDT模型，后面用此模型构造特征'''
gbdt.fit(X_train_gbdt, y_train_gbdt)

X_leaf_index = gbdt.apply(X_train_gbdt)[:, :, 0]  # apply返回每个样本在每科树中所属的叶子节点索引。行数为样本数，列数为树数目。值为在每个数的叶子索引
X_lr_leaf_index = gbdt.apply(X_train_lr)[:, :, 0] # apply返回每个样本在每科树中所属的叶子节点索引。行数为样本数，列数为树数目。值为在每个数的叶子索引
print('每个样本在每个树中所属的叶子索引\n',X_leaf_index)
# fit one-hot编码器
one_hot.fit(X_leaf_index)  # 训练one-hot编码，就是识别每列有多少可取值
X_lr_one_hot = one_hot.transform(X_lr_leaf_index)  # 将训练数据，通过gbdt树，形成的叶子节点（每个叶子代表了原始特征的一种组合）索引，编码成one0-hot特征。
# 编码后的每个特征代表原来的一批特征的组合。

''' 
使用训练好的GBDT模型构建特征，然后将特征经过one-hot编码作为新的特征输入到LR模型训练。
'''

# 使用lr训练gbdt的特征组合
print('使用逻辑回归训练GBDT组合特征的结果')
lr.fit(X_lr_one_hot, y_train_lr)
# 用训练好的LR模型多X_test做预测
y_pred_grd_lm = lr.predict_proba(one_hot.transform(gbdt.apply(X_test)[:, :, 0]))[:, 1]  # 获取测试集正样本的概率
# 根据预测结果输出
fpr, tpr, thresholds = roc_curve(y_test, y_pred_grd_lm)  # 获取真正率和假正率以及门限
roc_auc = auc(fpr, tpr)
print('auc值为\n',roc_auc)
#画图，只需要plt.plot(fpr,tpr),变量roc_auc只是记录auc的值，通过auc()函数能计算出来
plt.plot(fpr, tpr, lw=1, label='area = %0.2f' %  roc_auc)
plt.show()



# 使用lr直接训练原始数据
print('使用逻辑回归训练原始数据集的结果')
lr.fit(X_train_lr, y_train_lr)
# 用训练好的LR模型多X_test做预测
y_pred_grd_lm = lr.predict_proba(X_test)[:, 1]  # 获取测试集正样本的概率
# 根据预测结果输出
fpr, tpr, thresholds = roc_curve(y_test, y_pred_grd_lm)  # 获取真正率和假正率以及门限
roc_auc = auc(fpr, tpr)
print('auc值为\n',roc_auc)
#画图，只需要plt.plot(fpr,tpr),变量roc_auc只是记录auc的值，通过auc()函数能计算出来
plt.plot(fpr, tpr, lw=1, label='area = %0.2f' %  roc_auc)
plt.show()

补充1 : L1和L2正则化的区别 :

L1正则项的等值线是方形，方形与J0的等值线相交时，相交点为顶点的概率很大，w1或w2等于零的概率很大。所以使用L1正则项的解具有稀疏性。

L2正则项的等值线是圆，圆与J0的等值线相交时，w1或w2等于零的概率很小。所以使用L2正则项的解不具有稀疏性。

L1和L2正则是比较常见和常用的正则化项，都可以达到防止过拟合的效果。

补充2 : 方差 , 协方差 , 偏差

方差是 x自身的波动情况
协方差，是x1,x2两个的相关情况 ,若是 x1 = x2 ，那么协方差就是方差了

补充3 : cos , pearson , Jaccard应用场景

你可能感兴趣的:(机器学习,推荐系统,Python,决策树)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc