AgentSmart

机器学习笔记——集成学习EnsembleLearning+代码详解

机器学习笔记——集成学习EnsembleLearning

一、集成学习初步了解
- 1.1 集成学习基本思想
- 1.2 集成学习分类
二、AdaBoost
- 2.1 AdaBoost基本思想
- 2.2 AdaBoost代码详解
三、GBM/GBDT
- 3.1 基本思想简介
- 3.2 GBDT代码详解
四、Bagging & RandomForest
- 4.1 Bagging 基本思想
- 4.2 Bagging 代码详解

一、集成学习初步了解

1.1 集成学习基本思想

集成学习(Ensemble Learning)通过构建并结合多个学习器来完成学习任务，有时也可以被称为多分类器系统或者是基于委员会的学习等等。
集成学习基本由两部分组成，选择个体学习器种类并生成一定量的个体学习器，然后根据一定的规则将个体学习器结合得到性能更好的学习器。个体学习器通常是一个现有的学习算法从训练集中产生，比如C4.5决策树算法、CART算法、BP神经网络算法等都可以作为个体学习器。个体学习器如果种类相同的话，我们称为同质集成学习，如果种类不同的话我们称为异质集成学习。
往往集成学习的个体分类器都是“弱学习器”，何为弱学习器？弱学习器就是指泛化性能略优于随即猜测的学习器，比如说对于二分类问题，我们猜测正确的可能性为50%，而弱学习器就是正确率略高于50%或者说错误率略低于50%的分类器。总而言之就是有一点点作用，但性能太差。而集成学习的作用就在于集合多个弱分类器取长补短得到强分类器。
而对于个体分类器的选择也是有严格标准的，要满足“准确性”与“多样性”。准确性的意思是该弱分类器要能给整体分类器带来一定的精度性能改善，而不是来拖集体的后退。多样性的意思是多个弱分类器之间的性能优势要表现在不同方面，这样才能取长补短。但事实上，因为多个弱分类器都是为了解决同一问题，因此不可能误差相互独立，个体分类器的准确性与多样性本身就存在冲突，因此如何产生“好而不同”的个体分类器就是集成学习研究的核心。

1.2 集成学习分类

根据个体学习器的生成方式，目前的集成学习方法大致可以分为两大类。第一类是个体学习器间存在着强依赖关系、必须串行生成的序列化方法，代表算法为Adaboost和GBM。第二类是可同时生成的并行化方法，代表算法是Bagging、Dropout和随机森林（Random Forest）。
我们本篇博客详细讨论的是Adaboost、GBM和随机森林算法。

二、AdaBoost

2.1 AdaBoost基本思想

AdaBoost中Boost的含义是“提升”，我理解的提升在于两方面。第一方面是将多个弱分类器组合得到强分类器，实现由弱到强的提升。第二方面是AdaBoost得到多个个体分类器的方法是改变训练数据集的权重，提高误分类数据的权重降低正确分类数据的权重。
AdaBoost需要解决以下两个问题。第一个问题是AdaBoost如何改变训练数据集的权重，使用同一训练方法、训练模型得到多个不同的个体分类器。第二个问题AdaBoost如何将若个弱分类器组合得到强分类器。针对第一个问题，该算法将上一轮错误分类的数据权重增大，将正确分类的数据权值减小，权值的不同会在每次得到个体分类器后计算误差时发挥作用。针对第二个问题，该算法采用加权多数表决的方法，分类错误率低的个体分类器会得到相应较高的权重，而分类错误率较高的个体分类器会得到相应较低的权重，根据投票表决结果决定分类。
对上图做个简单的解释。我们根据初始的训练数据集，训练得到弱分类器1，再根据弱分类器1产生的误差反馈调整训练数据集的权重，再根据权重调整后的训练数据集训练得到弱分类器2…这样以此类推得到多个弱分类器组合得到最终的强分类器。
AdaBoost可以理解为是模型为加法模型，损失函数为指数函数，学习算法为前向分布算法的二类分类学习方法。

2.2 AdaBoost代码详解

本次介绍算法我想换一种方式，用实际的实现代码来介绍算法。辅助以必要的公式、表达式。
首先我们初始化权值矩阵D、弱分类器列表G以及弱分类器对应权值列表alpha。权值矩阵D在每次循环中都会用于当前分类器误差计算以及根据误差修改权值矩阵。弱分类器列表G以及弱分类器对应权值列表alpha都是在循环中存储，在最后弱分类集合时遍历。
弱分类器的个数M我们可以自己指定，M也决定了学习的循环次数。我们该实验的弱分类器确定为CART算法生成的分类决策树，我们可以使用sklearn中封装好的函数生成弱分类器，具体方法详见sklearn的指导手册。M的大小确实决定了集成学习的效果，但往往集成学习test_error曲线上升段和下降段都很短，中间有很长的一段平台期，也就意味着M从较小值开始增大时test_error急剧下降，而集成学习很难过拟合也就是M特别特别大时才会适得其反，大部分中间值的波动对集成学习效果影响很小，所以实际应用中并不需要很大的M便可以逼近最佳效果。
我们在这里默认X维度(100,2),y维度(100,1)。我们的损失矩阵error(100,1)，y_pred与y进行比对其中预测正确的位置值为0也就是不产生误差，预测错误的位置值为1产生误差。e_m代表每个个体分类器的总体误差，计算方法为权值矩阵与损失矩阵对应位置元素相乘。
我们得到每个个体分类器的总体误差率e_m后，就可以根据这个值计算该个体分类器在最后集成时候的系数alpha以及更新权值矩阵D。所以说集成个体分类器时的投票权重以及每次更新训练数据权重矩阵都与个体分类器的误差率有关。具体公式如下图所示：

下图可以看出当 $G_m(x_i)=y_i$ 时也就是分类正确时， $G_m(x_i)*y_i=1$ ， $故分类正确的样本权重被减小。相反分类错误的样本权重被增大。这样看来设计的权重表达式可以很好的实现我们动态调整权重的目的。$
下图表征的是个体分类器误差率e_m与投票权重alpha_m之间的函数关系，可以发现误差率e_m越小其在最后投票过程中所占权重更大，误差率e_m越大其所占权重越小。表明我们的alpha系数表达式可以很好的表征e_m与alpha之间的关系。
最后遍历所有的个体分类器G以及投票权重alpha得出最终的投票结果即可。np.sign(score)函数的意思是，score大于0时返回1，等于0时返回0，小于0时返回-1。加权投票表决的含义就是将所有模型的输出乘上对应系数求和，再根据和值和门限确定分类。

def adaboost(X, y, M, Max_depth=None):
    """
    adaboost函数，使用CART作为弱分类器
    参数:
        X: 训练样本
        y: 样本标签, y = {-1, +1}
        M: 使用M个弱分类器
        Max_depth: 基学习器CART决策树的最大深度
    返回:
        F: 生成的模型
    """
    # 假设X(100,2) num_X=100,num_feature=2
    num_X, num_feature = X.shape
    
    ### START CODE HERE ###
    # 初始化训练数据的权值分布
    # 生成一个（100，1）的矩阵，值都为1/num_X
    D = (np.ones((num_X,1))/num_X).reshape(-1,1)
    G = [] #用于存放多个弱分类器，以待线性组合
    alpha = [] #用于存放每个弱分类器的alpha参数
    
    for m in range(M):
        # 使用具有权值分布D_m的训练数据集学习，得到基本分类器
        # 使用DecisionTreeClassifier，设置树深度为Max_depth
        G_m = DecisionTreeClassifier(max_depth = Max_depth)
        # 开始训练
        model_m = G_m.fit(X,y,sample_weight = D.flatten())#注意加上参数，样本权重sample_weight = D
        # 计算G_m在训练数据集上的分类误差率
        y_pred = model_m.predict(X).reshape(-1,1)
        error = np.where(y_pred == y,0,1) #返回矩阵，相等的地方为0不计算损失，不相等的地方为1计算损失
        e_m = np.sum(D * error)  #两个(100,1)的矩阵对应元素相乘，求和计算总体损失
        
        #以下两个判断是为了保证np.log内不为0
        if e_m == 0:
            break
        if e_m == 1:
            raise ValueError("e_m = {}".format(e_m))
            
        # 计算G_m的系数
        alpha_m = (1/2) * np.log((1-e_m)/e_m)
        # 更新训练数据集的权值分布
        temp = D * np.exp(-alpha_m * y * y_pred)#三个(100,1)的矩阵对应元素相乘
        D = temp / np.sum(temp)#更新权值矩阵
        # 保存G_m和其系数
        G.append(G_m)
        alpha.append(alpha_m)
    
    # 构建基本分类器的线性组合
    def F(X):
        num_G = len(G)
        score = 0
        for i in range(num_G):
            score += alpha[i] * G[i].predict(X).reshape(-1,1)
        return np.sign(score).reshape(-1,1)#返回投票表决产生的分类结果
        
    ### END CODE HERE ###
    return F

三、GBM/GBDT

3.1 基本思想简介

GBM：Gradient Boosting Machine。GBM和AdaBoost一样采用加法模型： $\sum_{t=1}^{T} \alpha_t h_t(x)$ ，但GBM拓展为可以采用其他任意损失 $l$ （如前面介绍过的平方损失、交叉熵损失等）。GBM一般采用决策树（或回归树）作为基学习器，称为Gradient Boosting Decision Tree (GBDT)，针对不同问题使用不同的损失函数，分类问题使用指数损失函数，回归问题使用平方误差损失函数。
之前我们说过集成学习的关键在于如何设计个体分类器，使得个体分类器之间“好而不同”。AdaBoost与GBDT的基分类器都是决策树，不会通过更换基分类器的种类的方法去实现个体分类器的不同，那就只能在训练数据上下手。AdaBoost通过改变训练数据集的权重的方法来实现个体分类器的不同，而GBDT则通过改变训练数据y值方式来实现，也就是每次训练的是当前值与最优值之间的差距（余量）。

3.2 GBDT代码详解

第一步为初始化弱学习器：
$f_0(x) = \arg \underset{c}{\min}\sum_{i=1}^{N}L(y_i, c)$
GBDT算法的基学习器为回归CART树，因此所使用的损失函数为平方损失。我们带入该初始化的式子并对c求导就是得到c取值为所有训练样本标签值的均值。具体过程如下：
这会是一个比较容易混淆的点，GBDT的基学习器为回归树，使用平方损失构建每一个基学习器。而本题目基学习器集成起来是为了解决分类问题，因此余量公式的推导需要使用交叉熵损失。

def gbdt_classifier(X, y, M, Max_depth=5):
    """
    用于分类的GBDT函数
    参数:
        X: 训练样本
        y: 样本标签，y = {0, +1}
        M: 使用M个回归树
        Max_depth: 基学习器CART决策树的最大深度
    返回:
        F: 生成的模型
    """
    ### START CODE HERE ###
    y_pred = np.mean(y) #对应算法起始的fo
    Models = [] #用于存放所用个体分类器的列表
    
    for m in range(M):
        # 根据分类问题交叉熵损失计算余量r
        r = y - sigmoid(y_pred)
        # 使用DecisionTreeRegressor，设置树深度为5，random_state=0
        f_m = DecisionTreeRegressor(max_depth = Max_depth,random_state=0)
        # 开始训练
        model = f_m.fit(X,r)
        r_pred = model.predict(X).reshape(-1,1)
        y_pred = y_pred + r_pred #更新下次待学习的余量
        # 添加当前个体分类器
        Models.append(model)
    
    def F(X):
        num_X, _ = X.shape
        reg = np.zeros((num_X,1))
        
        # 累加所有模型的计算结果
        for model in Models:
            y_pred = model.predict(X)
            reg += y_pred.reshape(-1,1)
        # 分类问题需要使用sigmoid将计算值归一到0-1之间
        y_pred_gbdt = sigmoid(reg)
        # 以0.5为阈值，得到最终分类结果0或1
        one_position = y_pred_gbdt >= 0.5
        y_pred_gbdt[one_position] = 1
        y_pred_gbdt[~one_position] = 0
        
        return y_pred_gbdt
    
    ### END CODE HERE ###
    return F

四、Bagging & RandomForest

4.1 Bagging 基本思想

先回顾一下AdaBoost与GBM是如何让基学习器“好而不同”的。AdaBoost每次循环动态调整训练数据集的权重，上一次分类错误的权重增大，分类正确的权重减小。GBM每次循环训练学习当前余量，相当于保持x不动修改了y。而Bagging则采取了随机放回采样的方式，利用自助采样（有放回的均匀抽样）得到T组训练样本集，分别利用这些训练样本集训练T个分类器（CART or SVM or others），最后进行投票集成。
随机森林是Bagging的一个扩展变体，它充分利用“随机”的思想来增加各分类器的多样性。“随机”体现在两个方面：基于自助采样法来选择训练样本和随机选择特征（或属性）。随机选择特征是指，对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分。这里的参数k控制了随机性和引入程度，一般情况下，推荐值 k=log2d (假设有d个属性)。随机森林的弱分类器一般是CART。随机森林的特点是可高度并行化、继承了CART的优点和克服了完全生长树的缺点。
直接采用bagging算法集成CART树就是Random Forest的实现函数。

4.2 Bagging 代码详解

def bagging(X, y, T, size, seed=0, max_depth=None):
    """
    Bagging算法，分类器为CART，用于二分类
    参数：
        X: 训练集
        y: 样本标签
        T: T组
        size: 每组训练集的大小
        seed: 随机种子
        max_depth: 基学习器CART决策树的最大深度
    返回：
        F: 生成的模型
    """
    classifiers = [] # 存放分类器的列表
    m, n = X.shape
    
    ### START CODE HERE ###
    np.random.seed(seed)
    for i in range(T):
        # 使用np.random.choice选择size个序号，注意replace参数的设置，以满足有放回的均匀抽样。
        index = np.random.choice(a=m,size=size,replace=True)
        X_group = X[index]
        y_group = y[index]
        # 使用tree.DecisionTreeClassifier，设置max_depth=max_depth, min_samples_split=2(生成完全树),random_state=0
        t = DecisionTreeClassifier(max_depth=max_depth,min_samples_split=2,random_state=0)
        # 开始训练
        t = t.fit(X_group,y_group)
        classifiers.append(t)
    
    def F(X):
        # 计算所有分类器的预测结果
        result = []
        for t in classifiers:
            result.append(t.predict(X).reshape(-1,1))
        # 把预测结果组成 num_X * T 的矩阵
        pred = np.array(result)
        # 计算"0"有多少投票
        vote_0 = np.sum(pred == 0)
        # 计算"1"有多少投票
        vote_1 = np.sum(pred == 1)
        # 选择投票数最多的一个标签
        pred = 0 if vote_0 > vote_1 else 1
        
        return pred     
    ### END CODE HERE ###
    return F

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

机器学习笔记——集成学习EnsembleLearning+代码详解

机器学习笔记——集成学习EnsembleLearning

一、集成学习初步了解

1.1 集成学习基本思想

1.2 集成学习分类

二、AdaBoost

2.1 AdaBoost基本思想

2.2 AdaBoost代码详解

三、GBM/GBDT

3.1 基本思想简介

3.2 GBDT代码详解

四、Bagging & RandomForest

4.1 Bagging 基本思想

4.2 Bagging 代码详解

你可能感兴趣的:(机器学习,机器学习,人工智能)