大黄

机器学习（七）：提升（boosting）方法

引言
一、AdaBoost算法

1.算法
2.代码实现（python）

二、前向分步算法（forward stagewise algorithm）
三、提升树

1.提升树模型
2.提升树算法
3.二类分类问题提升树
4.回归问题的提升树

引言

提升（boosting）方法是一族可将弱学习器提升为强学习器的算法。这族算法的工作机制类似：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值T，最终将这T个基学习器进行加权结合。
本文主要介绍提升方法中代表性的算法AdaBoost和提升方法中更具体地实例提升树（boosting tree）。AdaBoost算法是1995年由Freund和Schapire提出的，提升树是2000年由Friedman等人提出的。

一、AdaBoost算法

AdaBoost是adaptive boosting（自适应boosting）的缩写。
对于分类问题而言，给定一个训练样本集，求比较粗糙的分类规则（弱分类器）要比求精确的分类规则（强分类器）容易得多。提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器（又称为基本分类器），然后组合这些弱分类器，构成一个强分类器。大多数的提升方法都是改变训练数据的概率分布（训练数据的权值分布），针对不同的训练数据分布调用弱学习算法学习一系列弱分类器。
这样，对提升方法来说，有个两个问题需要回答：一是在每一轮如何改变训练数据的权值或概率分布；二是如何将弱分类器组合成一个强分类器。
关于第一个问题，AdaBoost的做法是，提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。至于第二个问题，即弱分类器的组合，AdaBoost采取加权多数表决的方法，具体地，加大分类错误率小的弱分类器的权值，使其在表决中起较大的作用，减小分类错误率大的弱分类器的权值，使其在表决中起较小的作用。

1.算法

假设给定一个二类分类的训练数据集 $D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_i,y_i),\cdots,(x_N,y_N)\}$ 其中，每个样本点由实例与标记组成。实例 $x_i∈X⊆R^n$ ，标记 $y_i∈Y={-1,+1}$ ， $X$ 是实例空间， $Y$ 是标记集合。AdaBoost利用以下算法，从训练数据中学习一系列弱分类器或基本分类器，并将这些弱分类器组合成为一个强分类器。
算法1（AdaBoost）
输入：训练数据集 $D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_i,y_i),\cdots,(x_N,y_N)\}$ ，其中 $x_i∈X⊆R^n$ ， $y_i∈Y={-1,+1}$ ；弱分类器算法
输出：最终分类器G(x)
①初始化训练数据的权值分布 $D_1=(w_{11},\cdots,w_{1i},\cdots,w_{1N}),\ \ \ \ \ w_{1i}={1\over N},\ \ \ \ \ i=1,2,\cdots,N$ ②对 $m=1,2,\cdots,M$
(a) 使用具有权值分布 $D_m$ 的训练数据集学习，得到基本分类器 $G_m(x):X\rightarrow\{-1,+1\}$ (b) 计算 $G_m(x)$ 在训练数据集上的分类误差率 $KaTeX parse error: Unknown accent ' ̸' at position 16: e_m=P(G_m(x_i)≠̲̲y_i)=\sum_{G_m(…$ © 计算 $G_m(x)$ 的系数 $α_m={1\over2}log{{1-e_m}\over{e_m}}\ \ \ \ \ \ \ \ \ \ \ \ \ \ (1)$ 这里的对数是自然对数
(d) 更新训练数据集的权值分布 $D_{m+1}=(w_{m+1,1},\cdots,w_{m+1,i},\cdots,w_{m+1,N})$ $w_{m+1,i}={{w_{mi}}\over{Z_m}}\exp(-α_my_iG_m(x_i)),\ \ \ \ \ \ \ \ i=1,2,\cdots,N\ \ \ \ \ \ \ \ \ (2)$ 这里， $Z_m$ 是规范化因子 $Z_m=\sum_{i=1}^Nw_{mi}\exp(-α_my_iG_m(x_i))\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (3)$ 它使Dm+1成为一个概率分布
③构建基本分类器的线性组合 $f(x)=\sum_{m=1}^Mα_mG_m(x)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (4)$ 得到最终分类器（sign函数为若参数大于0返回1，小于0返回-1，等于0返回0） $G(x)=sign(f(x))=sign(\sum_{m=1}^Mα_mG_m(x))\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (5)$
证明：
首先假设训练数据集具有均匀的权值分布，即每个训练样本在基本分类器的学习中作用相同，这一假设保证在 $m = 1$ 时能够在原始数据上学习基本分类器 $G_1(x)$ 。
由(1)可知，错误分类的样本，权值越大，分类误差率也越大。前一次因分类错而增大权值的样本，若在这一次仍继续错误，则分类误差率会增大，通过式(2)影响系数，使这时得到的基本分类器在最终分类器中的作用减小。
由(2)可知，当分类误差率 $e_m≤{1\over2}$ 时， $α_m≥0$ ，并且 $α_m$ 随着 $e_m$ 的减小而增大，所以分类误差率越小的基本分类器在最终分类器中的作用越大。
式(3)可写成

由此可知，被基本分类器 $G_m(x)$ 误分类样本的权值得以扩大，而被正确分类样本的权值却得以缩小，这样一来，那些没有得到正确分类的数据，由于其权值的加大而受到后一轮的弱分类器的更大关注。
循环 $M$ 次，得到 $M$ 个基本分类器及对应的系数，最后，利用基本分类器的线性组合构建最终分类器。

2.代码实现（python）

以下代码来自Peter Harrington《Machine Learing in Action》
代码如下（保存为adaboost.py）：

# -- coding: utf-8 --
from numpy import *

def loadSimpData():
    datMat = matrix([[ 1. ,  2.1],
        [ 2. ,  1.1],
        [ 1.3,  1. ],
        [ 1. ,  1. ],
        [ 2. ,  1. ]])
    classLabels = [1.0, 1.0, -1.0, -1.0, 1.0]
    return datMat,classLabels

def stumpClassify(dataMatrix,dimen,threshVal,threshIneq):
    # 该函数接收4个参数，分别为训练集、第dimen个特征、切分点、分类准则
    retArray = ones((shape(dataMatrix)[0],1))
    if threshIneq == 'lt':
        retArray[dataMatrix[:,dimen] <= threshVal] = -1.0# 将特征值小于等于threshVal的元素位置设置－1.0，其他仍为1
    else:
        retArray[dataMatrix[:,dimen] > threshVal] = -1.0 # 将特征值大于threshVal的元素位置设置－1.0，其他仍为1
    return retArray


def buildStump(dataArr,classLabels,D):
    # buildStump是一个单层决策树函数，在本例中作为弱分类器
    # 该函数接收3个参数，分别为训练集、对应的类别标记、权重向量
    dataMatrix = mat(dataArr)       # 只包含特征的训练集
    labelMat = mat(classLabels).T   # 类别标记
    m,n = shape(dataMatrix)
    numSteps = 10.0
    bestStump = {}                  # 用于存储给定权重D时所得到的最佳单层决策树的相关信息
    bestClasEst = mat(zeros((m,1)))
    minError = inf
    for i in range(n):
        # 循环特征数量
        rangeMin = dataMatrix[:,i].min()  # 获取第i个特征的最小值
        rangeMax = dataMatrix[:,i].max(); # 获取第i个特征的最大值
        stepSize = (rangeMax-rangeMin)/numSteps          # 计算步长
        for j in range(-1,int(numSteps)+1):
            for inequal in ['lt', 'gt']:
                threshVal = (rangeMin + float(j) * stepSize)
                predictedVals = stumpClassify(dataMatrix,i,threshVal,inequal)
                errArr = mat(ones((m,1)))
                errArr[predictedVals == labelMat] = 0    # 若predictedVals与类别标记数据一样，则为0，否则为1
                weightedError = D.T*errArr               # 获取分类误差，权重大的数据分类错误会增大分类误差
                if weightedError < minError:
                    minError = weightedError             # 分类误差率
                    bestClasEst = predictedVals.copy()   # 分类后的类别标记
                    bestStump['dim'] = i                 # 分类特征为第i个
                    bestStump['thresh'] = threshVal      # 切分点
                    bestStump['ineq'] = inequal          # 分类准则，lt为小于等于是－1，gt为大于等于是－1
    return bestStump,minError,bestClasEst                # 最后得到分类误差最小的决策树


def adaBoostTrainDS(dataArr,classLabels,numIt=40):
    # 基于单层决策树的训练过程，numIt为迭代次数
    weakClassArr = []                                    # 存储各分类器信息
    m = shape(dataArr)[0]
    D = mat(ones((m,1))/m)                               # 初始化权重
    aggClassEst = mat(zeros((m,1)))                      # 初始化基本分类器
    for i in range(numIt):
        bestStump,error,classEst = buildStump(dataArr,classLabels,D)      # 获取第i个弱分类器的信息
        alpha = float(0.5*log((1.0-error)/max(error,1e-16)))              # 根据式(1)计算第i个分类器的系数
        bestStump['alpha'] = alpha                       # 将系数添加到对于的分类器相关信息
        weakClassArr.append(bestStump)                   # 将分类器添加到weakClassArr
        expon = multiply(-1*alpha*mat(classLabels).T,classEst)            # 计算式子(2)中exp中的数
        D = multiply(D,exp(expon))                                        # 计算式子(3)中wi*exp
        D = D/D.sum()                                                     # 结合前两个式子，根据算法1(d)更新权重
        aggClassEst += alpha*classEst                    # 根据式(4)构建基本分类器
        aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T,ones((m,1)))  # 根据最终分类器与原先类别信息计算错误率
        errorRate = aggErrors.sum()/m
        if errorRate == 0.0: break                       # 若错误率等于0，则退出
    return weakClassArr

def adaClassify(datToClass,classifierArr):
    # 该函数利用训练出的多个弱分类器进行分类；datToClass为测试数据，classifierArr为训练出的各个弱分类器
    dataMatrix = mat(datToClass)
    m = shape(dataMatrix)[0]
    aggClassEst = mat(zeros((m,1)))                      # 初始化基本分类器
    for i in range(len(classifierArr)):
        classEst = stumpClassify(dataMatrix,classifierArr[i]['dim'],\
                                 classifierArr[i]['thresh'],\
                                 classifierArr[i]['ineq'])
        aggClassEst += classifierArr[i]['alpha']*classEst# 根据式(4)构建基本分类器
    return sign(aggClassEst)                             # 根据式(5)获取最终结果

运行命令如下：

二、前向分步算法（forward stagewise algorithm）

考虑加法模型 $f(x)=\sum_{m=1}^Mβ_mb(x;γ_m)$ 其中， $b(x;γ_m)$ 为基函数， $γ_m$ 为基函数的参数， $β_m$ 为基函数的系数。
在给定训练数据及损失函数 $L (y, f (x))$ 的条件下，学习加法模型 $f (x)$ 成为经验风险极小化即损失函数极小化问题 $\min_{β_m,γ_m} \sum_{i=1}^NL(y_i,\sum_{m=1}^Mβ_mb(x;γ_m))$ 通常这是一个复杂的优化问题。
前向分步算法求解这一优化问题的想法是：因为学习的是加法模型，如果能够从前向后，每一步只学习一个基函数及其系数，逐步逼近优化目标函数式(5)，那么就可以简化优化的复杂度。
具体地，每步只需优化如下损失函数： $\min_{β,γ} \sum_{i=1}^NL(y_i,βb(x;γ))$ 给定训练数据集 $D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_i,y_i),\cdots,(x_N,y_N)\}$ ， $x_i∈X⊆R^n$ ， $y_i∈Y=\{-1,+1\}$ 。损失函数 $L (y, f (x))$ 和基函数的集合 ${b(x;γ)\}$ ，学习加法模型 $f (x)$ 的前向分步算法如下：
算法2（前向分步算法）
输入：训练数据集 $D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ；损失函数 $L (y, f (x))$ ；基函数集 ${b(x; γ)\}$
输出：加法模型 $f (x)$
①初始化 $f_0(x)=0$
②对 $m=1,2,\cdots,M$
(a)极小化损失函数 $(β_m,γ_m)=arg \min_{β,γ} \sum_{i=1}^NL(y_i,f_{m-1}(x_i)+βb(x;γ))$ 得到参数 $β_m$ ， $γ_m$
(b)更新 $f_m(x)=f_{m-1}(x)+β_mb(x;γ_m)$ ③得到加法模型 $f(x)=f_M(x)=\sum_{m=1}^Mβ_mb(x;γ_m)$ 这样，前向分步算法将同时求解从 $m = 1$ 到 $M$ 所有参数 $β_m$ , $γ_m$ 的优化问题简化为逐次求解各个 $β_m$ , $γ_m$ 的优化问题。

三、提升树

提升树是以分类树或回归树为基本分类器的提升方法。

1.提升树模型

提升方法实际采用加法模型（即基函数的线性组合）与前向分布算法。以决策树为基函数的提升方法称为提升树。
对分类问题决策树是二叉分类树；对回归问题决策树是二叉回归树。提升树模型可以表示为决策树的加法模型： $f_M(x)=\sum_{m=1}^MT(x;θ_m)$ 其中， $T(x;θ_m)$ 表示决策树； $θ_m$ 为决策树的参数； $M$ 为树的个数。

2.提升树算法

提升树算法采用前向分步算法，首先确定初始提升树 $f_0(x)=0$ ，第 $m$ 步的模型是 $f_m(x)=f_{m-1}(x)+T(x;θ_m)$ 其中， $f_{m-1}(x)$ 为当前模型，通过经验风险极小化确定下一棵决策树的参数 $θ_m$
$\hat θ_m=arg \min_{θ_m}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+T(x;θ_m))$ 由于树的线性组合可以很好地拟合训练数据，即使数据中的输入与输出之间的关系很复杂也如此，所以提升树是一个高功能的学习算法。

3.二类分类问题提升树

对于二类分类问题，提升树算法只需将AdaBoost算法1中的基本分类器限制为二类分类树即可，可以说这时的提升树算法是AdaBoost算法的特殊情况，这里不再细述。

4.回归问题的提升树

已知一个训练集 $D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ， $x_i∈X⊆R^n$ ， $X$ 为输入空间， $y_i∈Y⊆R$ ， $Y$ 为输出空间。在决策树一文中我们已经讨论了回归树的问题。如果将输入空间 $X$ 划分为 $J$ 个互不相交的区域 $R_1,R_2,\cdots,R_J$ ，并且在每个区域上确定输出的常量 $c_j$ ， $j=1,2,\cdots,J$ ，那么树可表示为 $T(x;θ))=\sum_{j=1}^Jc_jI(x∈R_j)$ 其中，参数 $θ={(R_1,c_1), (R2,c2),\cdots, (R_J,c_J)}$ 表示树的区域划分和各区域上的常数。 $J$ 是回归树的复杂度即叶结点个数。
回归问题提升树使用以下前向分步算法： $f_0(x)=0$ $f_m(x)=f_{m-1}(x)+T(x;θ_m),\ \ \ \ \ \ \ \ \ \ m=1,2,\cdots,M$ $f_M(x)=\sum_{m=1}^MT(x;θ_m)$ 在前向分步算法的第 $m$ 步，给定当前模型 $f_{m-1}(x)$ ，需求解 $\hat θ_m=arg \min_{θ_m}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+T(x;θ_m))$ 得到 $\hat θ_m$ ，即第 $m$ 棵树的参数。
当采用平方误差损失函数时， $L(y,f(x))=(y-f(x))^2$ 其损失变为 $L(y, f_{m-1}(x)+T(x;θ_m))=[y- f_{m-1}(x)-T(x;θ_m)]^2=[r-T(x;θ_m)]^2$ 这里， $r=y-f_{m-1}(x)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (6)$ 是当前模型拟合数据的残差（residual）。所以，对回归问题的提升树算法来说，只需简单地拟合当前模型的残差。
算法3（回归问题的提升树算法）
输入：训练数据集 $D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ， $x_i∈X⊆R^n$ ， $y_i∈Y⊆R$
输出：提升树 $f_M(x)$
①初始化 $f_0(x)=0$
②对 $m=1,2,\cdots,M$
(a) 按式(6)计算残差 $r_{mi}=y_i-f_{m-1}(x_i),\ \ \ \ \ \ \ \ \ \ \ \ i=1,2,\cdots,N$ (b) 拟合残差 $r_{mi}$ 学习一个回归树，得到 $T(x; θ_m)$
© 更新 $f_m(x)=f_{m-1}(x)+T(x;θ_m)$
③得到回归问题提升树 $f_M(x)=\sum_{m=1}^MT(x;θ_m)$

以上全部内容参考书籍如下：
李航《统计学习方法》
周志华《机器学习》

数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
深入详解：决策树在医学影像分割特征选择中的应用与实现猿享天开决策树算法机器学习人工智能
深入详解：决策树在医学影像分割特征选择中的应用与实现决策树（DecisionTree）作为一种经典的机器学习算法，以其简单、直观和可解释性强的特点，在医学影像分割的特征选择中扮演了重要角色。医学影像分割（如分割脑肿瘤、肝脏、肺结节等）需要从高维影像数据中提取关键特征，以提升分割模型的精度和效率。决策树通过构建树形结构，筛选对分割任务最重要的特征，降低数据维度，同时提供可解释的规则。本文将从原理、实
机器学习概述炀水机器学习人工智能
一、机器学习算法与流程（一）、机器学习的主要流程：1.明确分析目标，2.数据收集，3.数据预处理，4.建模分析，5.结果评估，6.部署使用以及学习更新。1.明确分析目标：客观反映用户需求，通过对各类人群的深入分析，为相关部门制订资费、服务、市场策略提供基础。2.数据收集：收集相关的数据，充足、全面的高质量数据是机器学习的基础。3.数据预处理：数据可能存在着噪声、不一致、异常、个人隐私保护等各类问题
机器学习算法（六）---逻辑回归向云端UP 机器学习模型机器学习算法逻辑回归
目录一、逻辑回归1.1模型介绍1.2工作原理1.2.1对数几率模型1.2.2逻辑回归与Sigmoid函数1.3.3熵、相对熵与交叉熵1.3损失函数和优化算法1.3.1损失函数的理论基础1.3.2优化算法1.3.2.1梯度下降算法局限1.3.2.2随机梯度下降与小批量梯度下降1.4算法流程1.5逻辑回归优缺点1.6案例1.7classification_report()参数二、逻辑回归与线性回归的区
读心与芯：我们与机器人的无限未来05未来之路躺柒机器人机器人学人工智能大数据分析智能计算
1.概念1.1.利用数据确定模式，描述数据集的某些属性，基于过去的经历判断未来可能发生什么，或基于当前发生的事情判断后果或反应1.2.机器学习(machinelearning)是人工智能的一个子集，它不需要显式编程，为系统提供自动学习和根据经验改进的能力1.2.1.机器学习算法基于样本数据（又称训练数据）构建模型，在未经显式编程的情况下对未来数据做出预测或决策1.2.2.机器学习有多种类型，包括有
黑猴子的家：Spark RDD 编程进阶之广播变量黑猴子的家
广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值，以供一个或多个Spark操作使用。比如，如果你的应用需要向所有节点发送一个较大的只读查询表，甚至是机器学习算法中的一个很大的特征向量，广播变量用起来都很顺手。传统方式下，Spark会自动把闭包中所有引用到的变量发送到工作节点上。虽然这很方便，但也很低效。原因有二:首先，默认的任务发射机制是专门为小任务进行优化的；其次，事实上你可能
机器学习从入门到实践：算法、特征工程与模型评估详解
目录摘要1.引言2.机器学习概述2.1什么是机器学习？2.2机器学习的发展历史2.3机器学习的应用3.机器学习算法分类3.1监督学习（SupervisedLearning）3.2无监督学习（UnsupervisedLearning）3.3半监督学习（Semi-SupervisedLearning）4算法详解4.1分类算法详解（1）逻辑回归（LogisticRegression）（2）决策树（Dec
深入详解：决策树在医学影像骨科分析中的应用与实现
深入详解：决策树在医学影像骨科分析中的应用与实现决策树（DecisionTree）是一种经典的机器学习算法，以其简单、直观和高可解释性的特点，在医学影像领域的骨科分析中应用广泛。骨科影像分析主要基于X光片、CT或MRI图像，用于骨折检测、骨关节炎分级、骨龄评估等任务。决策树通过构建树形结构，将复杂影像特征转化为清晰的决策规则，特别适合需要可解释性强的医疗场景。本文将从原理、实现细节到具体应用，深入
动态知识图谱在GEO优化中的核心价值与实施路径 GEO优化助手 GEO优化 AI搜索优化生成式引擎优化知识图谱人工智能 ai 搜索引擎
动态知识图谱在GEO优化中的核心价值与实施路径一、动态知识图谱的定义与技术背景1.定义与特性动态知识图谱（DynamicKnowledgeGraph,DKG）是一种基于图的语义网络，通过实体-关系-属性的三元组结构描述现实世界中的知识，并具备以下核心特性：实时性：通过API接口、爬虫技术或用户行为日志实时捕获最新数据（如产品参数更新、用户评价、市场趋势）。自适应性：利用机器学习算法（如图神经网络、
新闻聚合推荐App开发实战兔乱扔
本文还有配套的精品资源，点击获取简介：本项目综合了大数据分析、用户行为追踪和个性化算法，旨在为用户提供个性化的新闻阅读体验。通过JavaScript混合移动开发框架ReactNative或Ionic，可以构建跨平台的新闻聚合推荐App。新闻聚合涉及爬虫技术整合多源新闻内容，并进行数据清洗与格式化。新闻推荐基于机器学习算法分析用户数据，实时更新内容以适应用户变化。本项目还考虑了用户体验和隐私保护，涉
机器学习算法解析:XGBoost与LightGBM AI天才研究院 AI人工智能与大数据 AI大模型应用入门实战与进阶 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
机器学习算法解析:XGBoost与LightGBM作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：XGBoost,LightGBM,高效特征选择,并行化训练,自动调参,弱分类器集成1.背景介绍1.1问题的由来随着数据科学和人工智能技术的发展，越来越多的问题需要利用机器学习算法进行解决。传统的一维决策树虽然直观且易于理解，但在面对高维度数据集时
FY4A AGRI L1真彩色图合成 yaqiangwang MeteoInfo 算法开源软件信息可视化
FY4AAGRIL1数据的前三个通道波长分别为470nm、650nm和830nm，分别可以大致对应可见光的蓝、绿、红通道，但波长并不在三色通道的最佳范围，直接合成为真彩色图色彩偏差较大。有一些文章探讨了如何改进真彩色图的合成，比如调整合成后图像红色通道部分（陈博洋等，2018），或者利用机器学习算法生成绿光波段数据（Xieetal.,2021）。这里给出一个利用MeteoInfoLab生成真彩色合
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
机器学习算法之回归算法福葫芦机器学习回归算法
一、回归算法思维导图二、算法概念、原理、应用场景和实例代码1、线性回归1.1、概念‌‌线性回归算法是一种统计分析方法，用于确定两种或两种以上变量之间的定量关系。‌线性回归算法通过建立线性方程来预测因变量（y）和一个或多个自变量（x）之间的关系。其基本形式为y=wx+e，其中w是权重，x是自变量，e是误差项。1.2、算法原理线性回归算法的核心在于找到最佳的拟合直线，使得预测值与实际值之间的误差最小。
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
Java与机器学习的邂逅：Weka框架入门指南墨夶 Java学习资料1 java 机器学习数据挖掘
在这个数据驱动的时代，机器学习已经成为各行业创新和优化的关键技术。而Java，作为一门成熟且广泛应用的编程语言，在企业级应用开发中占据着重要地位。将二者结合起来，利用Java实现机器学习算法，不仅可以充分发挥其强大的生态系统优势，还能为开发者提供一个高效、稳定的开发环境。今天，我们将带您走进Java与机器学习的世界，探索如何使用Weka这一著名的机器学习库来开启您的智能之旅。Weka简介及其优势什
MATLAB 基于图像处理的杂草识别技术鱼弦 matlab 图像处理计算机视觉
MATLAB基于图像处理的杂草识别技术1.系统介绍杂草识别是精准农业中的重要环节，基于图像处理的杂草识别技术利用计算机视觉和机器学习算法，自动识别田间杂草，为精准施药提供决策支持。本系统基于MATLAB实现杂草图像处理，包括图像预处理、特征提取、分类识别等模块。2.应用场景精准农业:自动识别田间杂草，实现精准施药，减少农药使用量。生态监测:监测农田杂草种类和分布，评估生态环境。植物保护:识别有害杂
Python实现神经网络算法指南代码编织匠人 python 神经网络算法
Python实现神经网络算法指南神经网络是一种模拟人脑神经元结构进行信息处理的机器学习算法。在深度学习领域中，神经网络是最为强大的算法之一。Python作为一门简单易学的编程语言，也成为了许多人选择实现神经网络算法的首选语言。在本篇文章中，我们将通过Python代码来实现神经网络算法。导入必要的库为了实现神经网络算法，我们需要导入一些必要的Python库，包括numpy和matplotlib。其中
最新1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，欢迎大家！研究概述：本研究首先使用R语言在三个基因表达数据集中找到
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
Python设置国内镜像教程 wh3933 python 开发语言
####引言Python是一种广泛使用的高级编程语言，用于各种编程任务，从简单的脚本到复杂的机器学习算法。在安装Python包时，通常需要从Python包索引（PyPI）下载。由于网络原因，直接从PyPI下载可能速度较慢，因此，使用国内的镜像源可以显著提高下载速度。本文将详细介绍如何在Python中设置国内镜像。####文章目的本篇文章旨在指导用户如何将Python的包管理工具`pip`的默认源切
Python与Dlib库实现人脸技术实战西域情歌
本文还有配套的精品资源，点击获取简介：本项目详细说明了如何使用Python结合Dlib库实现人脸检测、识别、数量检测和距离检测。利用Dlib提供的机器学习算法和计算机视觉功能，包括HOG特征检测、级联分类器、面部特征向量模型和关键点预测等，项目能够快速准确地在图像中检测和识别人脸。此外，还介绍了如何统计图像中的人脸数量以及如何计算人脸之间的距离。通过实际代码资源，开发者能够掌握实时人脸技术的应用，
机器学习算法_支持向量机
一、支持向量机支持向量机只能做二分类任务SVM全称支持向量机，即寻找到一个超平面使样本分成两类，且间隔最大硬间隔：如果样本线性可分，在所有样本分类都正确的情况下，寻找最大间隔；如果出现异常值或样本线性不可分，此时硬间隔无法实现软间隔：允许部分样本，在最大间隔之内，甚至在错误的一边，寻找最大间隔；目标是尽可能保持间隔宽阔和限制间隔违例之间寻找良好的平衡惩罚系数：通过惩罚系数来控制这个平衡，C值越小，
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc