Andrewings

西瓜书学习笔记——第八章：集成学习

8.集成学习

8.1 个体与集成
集成的概念
- 集成如何获得比单一学习器更好的性能
8.2 Boosting
- 8.2.1 Boosting工作机制
- 8.2.2 AdaBoost（序列化采样）算法推导
- - 1. 验证指数损失函数是否为AdaBoost分类任务下0/1损失函数的一致性替代函数
  - 2. 两个核心公式$H_t(x)$和$l_{exp}(H_t)$
  - - $H_t(x) = H_{t-1}+\alpha_th_t$
    - $l_{exp}(H_t|D)$
  - 求$h_t$
  - 求$D_{t+1}$
  - 求$\alpha_t$
- 8.2.3 Boosting算法要点
- - 重采样
  - 降低偏差
8.3 Bagging与随机森林
- 8.3.1 Bagging（样本扰动）
- - Bagging基本流程
  - Bagging的结合策略
  - Bagging的优点
  - 包外样本的其他用途
- 8.3.2 随机森林（决策树+样本扰动，属性扰动）
- - 随机森林的特点和优点
8.4 结合策略
- 8.4.1 学习器结合三方面的好处
- 8.4.2 平均法
- - 简单平均法(simple averaging)
  - 加权平均法(weighted averaging)
  - 简单平均与加权平均的应用场景
- 8.4.2 投票法
- - 绝对多数投票法(majority voting)
  - 相对多数投票法(plurality voting)
  - - 绝对多数投票法和相对多数投票法的区别
  - 加权投票法
  - 投票法中关于个体学习器的输出类型（类标记，类概率）
- 8.4.3 学习法（Stacking算法）
- - Stacking集成的泛化性能的重要影响因素
8.5 多样性
- 8.5.1 误差-分歧分解
- 8.5.2 多样性度量
- - 常见多样性度量
- 8.5.3 多样性增强
- - 数据样本扰动（适合不稳定基学习器，如决策树、神经网络等）
  - 输入属性扰动（适合包含大量冗余属性的数据）
  - 输出表示扰动
  - 算法参数扰动

8.1 个体与集成

集成的概念

集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务，常可获得比单一学习器显著优越的泛化性能。

理论上，集成学习对于弱学习器的集成效果最明显，故许多理论研究都是以弱学习器作为基学习器进行的。

但是实践中往往使用比较强的学习器，这样就可以使用较少的学习器，或者重用常见学习器的一些经验等等。

集成如何获得比单一学习器更好的性能

若集成的结合策略是投票法，则有以下这些情况：

上图说明，要获得好的集成，个体学习器应“好而不同”，即个体学习器在保持一定准确性的同时，要保证不同个体学习器之间有一定的差异，即多样性(diversity)。
注：个体学习器至少不差于弱学习器

假设基分类器的错误率互相独立，则由Hoeffding不等式可知，集成的错误率为：

由式(8.3)可知，随着基学习器数量T的增加，集成的错误率将以指数级下降，最终趋向于0
但是以上的证明是以基学习器的误差相互独立这个假设为前提而进行的，而在现实任务中这显然不可能（个体学习器都是为了解决同一个问题训练出来的，不可能相互独立）。

一般的，个体学习器的准确性和多样性是互有冲突的。

集成学习的研究核心就在于如何产生并结合好而不同的个体学习器

8.2 Boosting

8.2.1 Boosting工作机制

Boosting工作机制如下图所示，其中各个基学习器的对应权重由其误差计算确定，基学习器误差大的则对应的权重小，误差小的则对应权重大

8.2.2 AdaBoost（序列化采样）算法推导

Boosting族算法最著名的代表是AdaBoost：

以下是基于加性模型(additive model)对AdaBoost算法的推导，标准AdaBoost只适用于二分类任务（要运用到其他任务需对AdaBoost进行修改），故以下也是同时基于二分类任务的推导：

AdaBoost的目标是学得T个 $h_t(x)$ 和相应的T个 $\alpha_t$ ，得到最小化指数函数损失 $l_{exp}(H|D)$ 的加性模型 $H (x)$

1. 验证指数损失函数是否为AdaBoost分类任务下0/1损失函数的一致性替代函数

注：期望可写成数据分布的累加形式
上面的证明说明了指数函数损失是AdaBoost分类任务下0/1损失函数的一致性替代函数

2. 两个核心公式 $H_t(x)$ 和 $l_{exp}(H_t)$

在每一轮（轮数为 $t$ ）中，都是基于最小化 $l_{exp}(H_t)$ 的过程（前面已经证明指数函数损失可作为其损失函数的一致性替代函数）求解出对应的 $H_t(x)$

$H_t(x) = H_{t-1}+\alpha_th_t$

$l_{exp}(H_t|D)$

求 $h_t$

求 $D_{t+1}$

求 $\alpha_t$

8.2.3 Boosting算法要点

重采样

图8.3中的第5步说明当错误率达到0.5以上则会抛弃当前基学习器，且学习过程停止。

为了避免训练过程过早停止，则可采用重采样法(re-sampling)来处理，即根据样本分布对训练集重新进行采样，再用重采样而得的样本集对基学习器进行训练。

使用重采样法，则在抛弃不满足条件的当前基学习器后，可根据当前的数据分布重新对训练样本进行采样，再基于新的采样结果重新训练新的基学习器，从而使得学习过程可以持续到预设的T轮完成。

降低偏差

从偏差-方差分解的角度看，Boosting主要关注降低偏差，因此Boosting能基于泛化性能相当弱的学习器构建出很强的集成。

8.3 Bagging与随机森林

欲得到泛化性能强的集成，则要尽量使得个体学习器好而不同，“好”和“不同”互有冲突，为缓解这个问题，可以使用互相有交叠的采样子集。

8.3.1 Bagging（样本扰动）

Bagging是并行式集成学习方法最著名的代表，直接基于自助采样法(bootstrap sampling)，即不放回抽样（详见2.2.3节），经过计算可知，初始训练集中约有63.2%的样本出现在采样集中。

Bagging基本流程

用自助法采样出T个含有m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合。

Bagging的算法描述如下：

从方差-偏差分解的角度看，Bagging主要关注降低方差，因此它在不剪枝决策树，神经网络等易受样本扰动的学习器上学习效果更为显著。

Bagging的结合策略

分类任务：简单投票法；若票数相同则随机选择其中一个或者考察学习器投票的置信度
回归任务：简单平均法

Bagging的优点

由Bagging算法的过程可见，若基学习器的计算复杂度为O(m)，则Bagging的复杂度大致为T(O(m)+O(s))，T通常是个不太大的常数，因此训练一个Bagging集成与直接使用基学习算法训练一个学习器的复杂度同阶，着说明Bagging是一个很高效的集成学习算法。
与标准AdaBoost只适用于二分类任务不同，Bagging能不经修改地用于多分类、回归等任务
自助采样使得有剩下约36.8%的样本可用作验证集来对泛化性能进行包外估计

注：式(8.21)直接除以 $∣ D ∣$ ，是假设T个基学习器的包外样本的并集即为全集，事实上该假设的可能性很大。

包外样本的其他用途

当基学习器是决策树时，可使用包外样本来辅助剪枝，或用于估计决策树中各结点的后验概率以辅助对零训练样本结点的处理
当基学习器是神经网络时，可使用包外样本辅助早停以减小过拟合风险

8.3.2 随机森林（决策树+样本扰动，属性扰动）

随机森林是Bagging的一个扩展变体，基学习器采用的是决策树，在决策树的训练过程中引入随机属性选择：在当前结点的d个划分属性中随机选择k个属性，再计算出这k个属性之间的最优划分属性。
注：k值的取值控制了随机性的引入程度：若k=d，则基决策树的构建与传统决策树相同；若k=1，则是随机选择一个属性进行划分；一般情况下，推荐值 $k=\log_2d$

随机森林的多样性不仅来自样本扰动（自助采样），还来自属性扰动，这就使得最终集成的泛化性能可通过个体学习器间的差异度进一步提升

随机森林的特点和优点

特点：
随机森林在训练的初始阶段（个体学习器少）性能往往较差，这是因为属性扰动带来的影响；但当个体学习器数目逐渐增加，随机森林通常会收敛到更低的泛化误差。

优点：
随机森林的训练效率常优于Bagging，这是因为属性扰动使得随机森林在训练每个个体学习器时，使用的是属性子集，而Bagging使用的是属性全集。

8.4 结合策略

8.4.1 学习器结合三方面的好处

统计方面：学习任务的假设空间往往很大，这就使得有可能有多个假设能达到同等性能，使用单学习器可能因误选而导致泛化性能不佳，结合多个学习器则能减小这一风险
计算方面：学习算法往往会陷入局部极小（缓解方法见第5章神经网络的学习笔记），有的局部极小对应的泛化性能可能很糟糕，而通过多次运行之后进行结合，可降低陷入糟糕局部极小点的风险
某些学习任务的真实假设可能不在当前算法所考虑的假设空间中，若使用单学习器肯定无效，而结合多个学习器可以扩大假设空间，有可能学得更好的近似。

8.4.2 平均法

对数值型输出，最常见的结合策略是使用平均法。

简单平均法(simple averaging)

$H(x)=\dfrac{1}{T}\sum_{i=1}^{T}h_i(x)\tag{8.22}$

加权平均法(weighted averaging)

$H(x)=\sum_{i=1}^{T}w_ih_i(x)\tag{8.23}$
其中， $w_i$ 是个体学习器 $h_i$ 的权重，通常要求 $w_i\geq0$ ， $\sum_{i=1}^{T} w_i=1$

注：必须保证使用非负权重才能确保集成的性能优于单一最佳个体学习器，因此在集成学习中一般对个体学习器的权重施以非负约束

简单平均与加权平均的应用场景

现实任务中的训练样本通常不充分或有噪声，这使得学习出的权重不完全可靠。尤其是对大规模的集成来说，要学习的权重过多，较容易导致过拟合。也就是说，加权平均不一定优于简单平均。

一般而言：

在个体学习器性能相差较大时宜使用加权平均法
在个体学习器性能相差较小时宜使用简单平均法

8.4.2 投票法

绝对多数投票法(majority voting)

相对多数投票法(plurality voting)

即预测为票数最多的那个标记，若最高票数的标记有多个，则随机选择一个

绝对多数投票法和相对多数投票法的区别

绝对多数投票法要求预测标记票数比例超过50%，若没有则拒绝预测；
相对多数投票法只要求选择的预测标记得票数最多，无论怎样都会选出一个标记作为预测标记，适用于必须产生预测的任务。

加权投票法

投票法中关于个体学习器的输出类型（类标记，类概率）

在现实任务中，不同的个体学习器可能有不同类型的输出值：

类标记： $h_i^j(x)\in\{0,1\}$ ，若 $h_i$ 将样本预测为类别 $c_j$ 则取值为1，否则为0。使用类标记的投票也称硬投票。

注：若同时能产生分类置信度，则分类置信度可转换为类概率使用（需进行规范化操作“校准”之后才能作为类概率）
类概率： $h_i^j(x)\in[0,1]$ ，相当于对后验概率 $P(c_j|x)$ 的一个估计。使用类概率的投票也称软投票

注1：虽然类概率往往不准，但是基于类概率进行结合却往往比直接基于类标记进行结合的性能好
注2：软投票只适用于同质集成中同类型基学习器的场景，若为异质集成，且输出的是类概率，则需将类概率转化为类标记输出（如类概率最大的 $h_i^j(x)$ 设为1，其他为0）然后再投票

8.4.3 学习法（Stacking算法）

除了平均法和投票法，对于数据量很大的场景，还可以使用另一个学习器来将个体学习器进行结合，此即为学习法，典型代表之一为Stacking

在学习法下，个体学习器称为初级学习器，用于结合的学习器称为次级学习器或元学习器(meta-learner)

Stacking算法：

对于初始数据集 $D$ ，运用交叉验证法，我们先从训练集中运用T个初级学习算法训练出T个初级学习器。
针对测试集中的每一个样本（有 $m$ 个样本，算法的第5行），用T个初级学习器分别预测得到对应样本的输出， $z_{i1}$ 表示第一个初级学习器对第 $i$ 个样本的预测结果。则第 $i$ 个样本对应的输出即为 $z_{i1},z_{i2}...,z_{iT}）$ ，它的类别标记还是记为原来的标记。

要注意的是，在训练阶段，次级训练集是利用初级学习器产生的，若直接用初级学习器的训练集来产生次训练集，则过拟合风险较大。因此，一般是通过使用交叉验证法或留一法这样的方式，用训练初级学习器未使用的样本来产生次级学习器的训练样本。

Stacking集成的泛化性能的重要影响因素

次级学习器的输入属性表示和次级学习算法对Stacking集成的泛化性能有很大的影响。

将初级学习器的输出类概率作为次级学习器的输入属性，用多响应线性回归（MLR）作为次级学习算法效果较好；在MLR中使用不同的属性集更佳。

注：MLR是基于线性回归的分类器，它对每个类别分别进行线性回归，属于该类的训练样例所对应的输出被置为1，其他类置为0；测试用例将被分给输出值最大的类。

8.5 多样性

8.5.1 误差-分歧分解

之前我们从理论上说明了好的集成需要好而不同的个体学习器，这一小节运用误差-分歧分解通过对回归任务证明了该结论。

假设用T个个体学习器 $h_1,...h_T$ 通过加权平均法结合产生的集成 $H$ 来完成回归学习任务 $f:\R^d \mapsto \R$

对示例 $x$ ，定义学习器 $h_i$ 的分歧（ambiguity）为：
$A(h_i|x)=(h(x)-H(x))^2\tag{8.27}$
则集成 $H$ 的分歧为：

即集成的分歧是各个个体学习器的加权值

分歧项在这里表征各个个体学习器在样本 $x$ 上的不一致性，即在一定程度上反映了个体学习器的多样性。

个体学习器 $h_i$ 的平方误差为：

集成 $H$ 的平方误差为：

式(8.36)说明：个体学习器准确性越高，多样性越大，则集成越好

8.5.2 多样性度量

多样性度量(diversity mearsure)是用于度量集成中个体分类器的多样性，即估算个体学习器的多样化程度。

常见多样性度量

注：偶然一致率 $p_2$ 还可以这样写为： $p_2=\dfrac{a+b}{m}\cdot\dfrac{a+c}{m}+\dfrac{c+d}{m}\cdot\dfrac{b+d}{m}$ ，加号前后两项分别表示为分类器 $h_i,h_j$ 将样本预测为+1的概率和分类器 $h_i,h_j$ 将样本预测为-1的概率。

8.5.3 多样性增强

以下是几种多样性增强机制，不同的多样性增强机制可以同时使用，如随机森林同时使用了样本扰动和属性扰动。而有些方法甚至同时使用了更多的机制。

数据样本扰动（适合不稳定基学习器，如决策树、神经网络等）

数据样本扰动通常是基于采样法，如在Bagging中使用自助采样，在AdaBoost采用序列采样

输入属性扰动（适合包含大量冗余属性的数据）

训练样本通常由属性组描述，不同的子空间（即属性子集）提供了观察数据的不同视角。显然，从不同的属性子集训练出的个体学习器必然有所不同。

随机子空间(random subspace)算法就是用的输入属性扰动：从初始属性集中抽取出若干个属性子集，再基于每个属性子集训练一个基学习器。

属性扰动适用于包含大量冗余属性的数据，原因如下：

包含大量冗余属性的数据，在其子空间训练个体学习器不仅能产生多样性大的个体，还会因属性数的减少而缩短训练时间
由于冗余属性较多，减少一些属性之后训练出的个体学习器也不会太差

可以看出，若数据只包含少量属性，或者冗余属性较少，则不宜使用输入属性扰动法

输出表示扰动

对输出表示进行操纵可以增强多样性

对训练样本的类标记稍作变动，如翻转法：随机改变一些训练样本的标记
对输出表示进行转化，如输出调制法：将分类输出转化为回归输出后构建个体学习器
将原任务拆解为多个可同时求解的子任务，如ECOC法：利用纠错输出码将多分类任务拆解为一系列二分类来训练基学习器

算法参数扰动

基学习器算法一般都有参数需要进行设置，例如神经网络的隐层神经元，初始连接权等，通过随机设置不同的参数，往往可产生差别较大的个体学习器。

例如负相关法：显示地通过正则化项来强制个体神经网络使用不同的参数。

使用单一学习器时通常使用交叉验证等方法确定参数值，这事实上已经使用了不同参数训练出多个学习器，只不过最终选取其中一个学习器进行使用，而集成学习则相当于把这些学习器都利用起来；由此也可以看出，集成学习技术的实际计算开销并不比使用单一学习器大很多

基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
【树模型与集成学习】(task6)梯度提升树GBDT+LR 山顶夕景推荐算法 #集成学习与Kaggle GBDT 推荐算法机器学习
学习总结（1）不同问题的提升树学习算法，主要区别在于使用的损失函数不同，如用平方误差损失函数的回归问题、用指数损失函数的分类问题、用一般损失函数的一般决策问题等。（2）不管是二分类问题的提升树，还是回归问题的提升树，这里的损失函数都很方便：前者是用指数损失函数，所以可以当做是Adaboost的个例，Aadaboost的流程；而后者是当使用平方误差损失时，可以直接拟合残差。而使用不同的损失函数，对应
Python与机器学习库Scikit-learn进阶 master_chenchengg python python Python python开发 IT
Python与机器学习库Scikit-learn进阶Scikit-learn进阶之旅：从新手到高手的必经之路为什么选择Scikit-learn？安装与环境设置特征工程的艺术：打造更强大的预测模型数据清洗特征构造模型调优秘籍：网格搜索与交叉验证的最佳实践网格搜索交叉验证集成学习的魅力：提升模型性能的组合拳随机森林梯度提升机堆叠实战案例解析：使用Scikit-learn解决真实世界问题数据准备模型训练
数据挖掘实战-基于随机森林算法的空气质量污染预测模型艾派森数据挖掘实战合集信息可视化人工智能 python 数据挖掘随机森林
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具4.实验过程
Matlab实现基于BiLSTM-Adaboost双向长短期记忆神经网络结合Adaboost集成学习回归预测的详细项目实例（含模型描述及示例代码） nantangyuxi MATLAB 含模型描述及示例代码 matlab 神经网络集成学习人工智能大数据深度学习机器学习
目录Matlab实现基于BiLSTM-Adaboost双向长短期记忆神经网络结合Adaboost集成学习回归预测的详细项目实例2项目背景介绍...2项目目标与意义...21.提高时序数据预测准确性...22.弱学习器组合的优势...33.提高数据预测的泛化能力...3
【机器学习应用】基于集成学习的电力负荷预测系统实战案例
基于集成学习的电力负荷预测系统实战案例一、系统概述二、系统架构2.1整体架构图2.2架构分层说明2.3系统各个模块之间的调用流程三、系统功能3.1功能模块图3.2核心功能说明3.2.1用户认证模块3.2.2数据管理模块3.2.3预测任务模块3.2.4模型服务模块四、重点技术解析4.1Flask框架4.2Celery异步任务4.3机器学习模型五、构建与部署步骤5.1环境准备5.2代码获取5.3配置修
Java 大视界 -- Java 大数据机器学习模型在金融市场波动预测与资产配置动态调整中的应用（355）青云交大数据新视界 Java 大视界 java 大数据机器学习金融市场波动预测资产配置 LSTM
Java大视界--Java大数据机器学习模型在金融市场波动预测与资产配置动态调整中的应用（355））引言：正文：一、Java构建的金融数据处理架构1.1多源数据实时融合与清洗1.2跨市场数据关联（风险传导分析）二、Java驱动的市场波动预测模型2.1LSTM+随机森林融合预测（股市案例）2.2资产配置动态调整（风险预算模型）三、实战案例：从“被动亏损”到“主动盈利”3.1公募基金：加息波动中的1.
基于SVm和随机森林算法模型的中国黄金价格预测分析与研究 python编程狮支持向量机算法随机森林 python 机器学习人工智能
摘要本研究基于回归模型，运用支持向量机（SVM）、决策树和随机森林算法，对中国黄金价格进行预测分析。通过历史黄金价格数据的分析和特征工程，建立了相应的预测模型，并利用SVM、决策树和随机森林算法进行训练和预测。首先，通过对黄金价格时间序列数据的探索性分析，发现黄金价格存在一定的趋势和季节性变化。随后，进行了数据预处理和特征选择，为建立准确的预测模型奠定了基础。分别使用SVM、决策树和随机森林算法建
打卡Day12 HAhhhiu python学习打卡 python 机器学习
@浙大疏锦行知识点：遗传算法：来源于自然界中的生物进化和基因遗传思想：模拟生物进化过程，通过“选择（保留优秀解）、交叉（组合解的特征）、变异（引入新特征）”迭代优化我想培养出一只超级泰迪犬？该怎么办呢？首先，我有一群泰迪犬，但是小泰迪们的各种基因不同，形态各色，我只想要一只高大、卷毛和聪明的泰迪。（这是初始解的集合，也是案例学习代码中，我们所设定的随机森林中的一堆的参数范围）接着，我开始挑选符合上
GEE土地分类——利用landsat 8 和随机森林方法进行土地分类此星光明 gee土地分类专栏前端 gee 机器学习土地分类随机森林 Landsat 土地利用
目录简介代码解释代码函数ee.Classifier.smileRandomForest(numberOfTrees,variablesPerSplit,minLeafPopulation,bagFraction,maxNodes,seed)Arguments:Returns:Classifier结果简介GEE土地分类——利用landsat8和随机森林方法进行土地分类代码解释这段代码是用Google
机器学习每周挑战——二手车车辆信息&交易售价数据梦想成为一名机器学习高手机器学习 python 人工智能
这是数据集的截图目录背景描述数据说明车型对照：燃料类型对照：老规矩，第一步先导入用到的库第二步，读入数据：第三步，数据预处理第四步：对数据的分析第五步：模型建立前的准备工作第六步：多元线性回归模型的建立第七步：随机森林模型的建立问题：背景描述本数据爬取自印度最大的二手车交易平台CARS24，包含8000+该平台上交易车辆的关键评估信息。CARS24成立于2015年，总部位于印度古尔冈，是一个在印度
【论文阅读】SSCL-AMC：一种基于动态增强和集成学习的自监督自动调制分类方法
SSCL-AMC:ASelf-supervisedAutomaticModulationClassificationMethodviaDynamicAugmentationandEnsembleLearning摘要：与传统的手工自动调制分类（AMC）方法相比，深度学习已经显示出有希望的结果，AMC作为信号检测和调制之间的中间步骤发挥着关键作用。然而，获取大规模标记数据仍然具有挑战性，因为数据质量和
集成学习中的多样性密码：量化学习器的多样性元楼集成学习学习机器学习人工智能
合集-scikit-learn(69)1.【scikit-learn基础】--概述2023-12-022.【scikit-learn基础】--『数据加载』之玩具数据集2023-12-043.【scikit-learn基础】--『数据加载』之真实数据集2023-12-064.【scikit-learn基础】--『数据加载』之样本生成器2023-12-085.【scikit-learn基础】--『数据
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
用matlab实现随机森林算法 showmethetime 算法 matlab 随机森林
用matlab实现随机森林算法，里面附有说明文档，参数可调节RandomForest_matlab/RandomForests/RF.mexw32,81920RandomForest_matlab/RandomForests/RF_demo.m,2536RandomForest_matlab/RandomForests/runRF.m,2616RandomForest_matlab/RandomF
【机器学习|学习笔记】随机森林（Random Forest, RF）详解，附代码。努力毕业的小土博^_^ 机器学习基础算法优质笔记1 机器学习学习笔记随机森林人工智能
【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。文章目录【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。前言起源随机子空间法与Bagging的萌芽原理算法机制理论保障发展应用优缺点优点缺点Python实现示例（Scikit-learn）欢迎铁子们点赞、关注、收藏
提到交换机堆叠大家就害怕，其实堆叠很简单！ wljslmz 网络技术交换机堆叠
一提到“交换机堆叠”这四个字，很多网络工程师眉头就皱了起来，仿佛堆叠就等于配置复杂、故障难查、升级噩梦。其实真不是！交换机堆叠（Stacking）说白了，就是“多台交换机一起干活，还装得像一台”。如果你认真了解过堆叠背后的逻辑和原理，掌握了几个关键细节，这项技术其实相当香，无论是运维、扩展，还是冗余能力，都是妥妥加分项！今天我们就来一次不装神弄鬼、不炫术语、不堆RFC的通透解读，把“交换机堆叠”这
【集成学习】Bagging、Boosting、Stacking算法详解
文章目录1.相关算法详解：2.算法详细解释：2.1Bagging：2.2Boosting：2.3Stacking：2.4K-foldMulti-levelStacking：集成学习（EnsembleLearning）是一种通过结合多个模型的预测结果来提高整体预测性能的技术。它通过将多个学习器的结果集成起来，使得最终的模型性能更强，具有更好的泛化能力。常见的集成学习框架包括：Bagging、Boos
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法神经网络15044 仿真模型神经网络深度学习深度学习分类 cnn 算法网络集成学习数据挖掘
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法1.任务概述岩性分类是地质遥感的核心任务，旨在通过遥感影像识别地表岩石类型。本文使用ASTER（多光谱热辐射传感器）和Sentinel（多光谱成像卫星）数据，采用卷积神经网络（CNN）及CNN-集成学习（CNN-EL）方法实现高精度岩性分类。2.数据预处理2.1数据源说明ASTER数据：14个波段（VNIR/SWIR/TIR），分辨率
用sklearn库中的算法对数据集进行训练和auc评估（个人学习笔记） ZD困困困 python 机器学习
本文为个人学习笔记，仅供学习参考，欢迎讨论，要是有哪里写的不对或有疑问的欢迎讨论。题目：运用已给数据集进行模型训练，使用逻辑回归、决策树、随机森林和AdaBoost几个算法进行训练，并打印各个算法训练后的auc评价指标。文章目录1.导入数据集①read_csv():读取数据并以某字符分隔。②merge():合并③drop():删除行或列④tolist():将数组或矩阵转换为列表⑤train_tes
机器学习：集成算法的装袋法（Bagging）：随机森林（Random Forest） rubyw #概念及理论机器学习算法随机森林
随机森林（RandomForest）是一种集成学习方法，通过构建多个决策树并结合其预测结果来提升模型的性能和稳定性。它由LeoBreiman于2001年提出，广泛应用于分类和回归任务。以下是随机森林的详细介绍，包括其基本概念、构建过程、优缺点及应用场景。基本概念随机森林是一种基于决策树的集成算法，通过生成多棵决策树，并将这些树的预测结果结合起来，以提高整体模型的预测准确性和稳定性。每棵决策树都是在
森林的智慧：随机森林与集成学习的民主之道田园Coder 人工智能科普人工智能科普
当约阿夫·弗罗因德和罗伯特·沙皮尔提出的AdaBoost算法在90年代末期以其强大的预测精度震惊机器学习界，展示了“团结弱者为强者”的集成魅力时，另一种集成思想也在悄然孕育。这种思想同样信奉“众人拾柴火焰高”，但走的是一条与AdaBoost截然不同的路径：它不执着于反复调整数据权重去“关注”被前序模型分错的困难样本，而是致力于创造尽可能多样化的模型，然后让这些模型平等地投票。它的核心哲学是：如果每
机器学习：集成学习方法之随机森林(Random Forest) 慕婉0307 机器学习集成学习机器学习随机森林
一、集成学习与随机森林概述1.1什么是集成学习集成学习(EnsembleLearning)是机器学习中一种强大的范式，它通过构建并结合多个基学习器(baselearner)来完成学习任务。集成学习的主要思想是"三个臭皮匠，顶个诸葛亮"，即通过组合多个弱学习器来获得一个强学习器。集成学习方法主要分为两大类：Bagging(BootstrapAggregating)：并行训练多个基学习器，然后通过投票
七天学完十大机器学习经典算法-05.从投票到分类：K近邻(KNN)算法完全指南
接上一篇《七天学完十大机器学习经典算法-04.随机森林：群众智慧的机器学习实践》想象一下，你搬进了一个新小区。想知道这个小区整体氛围如何？最直接的方法就是看看你最近的几家邻居是什么样的人——如果邻居们都很安静、整洁，小区大概率不错；如果邻居们深夜喧哗、环境杂乱，你可能就得重新考虑了。K近邻（K-NearestNeighbors,KNN）算法的核心思想，就如同这个观察邻居的过程。它是机器学习中最直观
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
深入详解：随机森林算法——概念、原理、实现与应用场景猿享天开算法随机森林机器学习
深入详解：随机森林算法——概念、原理、实现与应用场景随机森林（RandomForest,RF）是一种经典的集成学习算法，广泛应用于机器学习任务。本文将通过图文结合的方式，全面解析随机森林的核心原理、实现细节和应用实践，帮助读者建立系统认知。1.核心概念与直观理解1.1什么是随机森林？随机森林是一种基于决策树的集成学习算法，通过构建多棵决策树进行协同预测。其核心思想是"三个臭皮匠，顶个诸葛亮"——多
随机森林详解：原理、优势与应用实践大千AI助手人工智能 Python #OTHER 随机森林算法机器学习决策树人工智能 DecisionTree 数据挖掘
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！随机森林介绍1.定义：随机森林是一种强大的、高度灵活的集成学习（EnsembleLearning）算法，主要用于分类和回归任务。它的核心思想是构建多棵决策树（DecisionTree），并将这些树的预测结果进行组合（例如，分类任务采用投票，回归任务采用
集成学习基础：Bagging 原理与应用大千AI助手人工智能 Python #OTHER 集成学习机器学习人工智能算法决策树 Bagging
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！Bagging介绍1.定义与全称：Bagging是BootstrapAggregating的缩写，中文常译为装袋法。它是一种并行式的集成学习方法。核心目标是通过构建多个基学习器的预测结果进行组合（通常是投票或平均），来获得比单一基学习器更稳定、更准确、
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><