Guest Sir.'

决策树(Decision Tree)

- - 简介
  - 一、决策树算法的基本流程
  - 二、决策树的特征选择
  - - - 1.对于离散属性的划分
      - 2.对于连续属性的划分
  - 三、决策树的算法手写代码实现（Python）
  - 四、决策树在SKlearn中的调用

简介

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。

Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

分类树（决策树）是一种十分常用的分类方法。他是一种监管学习，所谓监管学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

决策树既可以用作分类，也可以用作回归。本文所写着重为分类

一、决策树算法的基本流程

决策树（Decision Tree）是⼀种实现分治策略的层次数据结构。它是⼀种有效的⾮参数学习⽅法，并可以⽤于分类和回归。我们主要讨论分类的决策树。
分类决策树模型表示⼀种基于特征对实例进⾏分类的树形结构（包括⼆叉树和多叉树）。
决策树由结点（node）和有向边（directed edge）组成，树中包含三种结点：

根结点（root node）：包含样本全集。没有⼊边，但有零条或多条出边；
内部结点（internal node）：对应于属性测试条件，恰有⼀条⼊边，和两条或多条出边；
叶结点（leaf node）或终结点（terminal node）：对应于决策结果，恰有⼀条⼊边，但没有出边。

从根结点到每个叶结点的路径对应了⼀个判定测试序列，其基本流程遵循简单且直观的 “分⽽治之” 策略。由此，局部区域通过少数⼏步递归分裂确定，每个决策节点实现⼀个具有离散输出的属性测试函数，标记分⽀。

决策树可以表示为给定决策节点下类的条件概率分布，这⼀条件概率分布定义在特征空间的⼀个划分上。每个将空间划分成较⼩区域，在从根结点沿⼀条路径向下时，这些较⼩的区域被进⼀步划分，并在每个区域定义⼀个类的概率分布就构成了⼀个条件概率分布。

假设 $X$ 是表示特征的随机变量， $Y$ 是表示类的随机变量，则条件概率分布可表示为 $P (Y ∣ X)$ 。 $X$ 取值于给定划分条件下的区域的集合， $Y$ 取值于类的集合。各叶结点（区域）上的条件概率往往会偏向某⼀个类，即属于某⼀类的概率较⼤。决策树在分类时会将该结点的实例强⾏分到条件概率⼤的那⼀类去。
上面左图表示了特征空间的⼀个划分，假定现在只有 $w_{10}$ 和 $w_{20}$ 两个决策节点，特征空间被决策节点沿轴划分，并且相继划分相互正交。

每个⼩矩形表示⼀个区域，特征空间划分上的区域构成了⼀个集合， $X$ 取值为区域的集合。在这⾥假设只有两类，即 $Y$ 的取值为 " $\Box$ “ 和 “ $\bigodot$ “ 。当某个区域 $c$ 的条件概率分布满⾜ $P(Y=\bigodot|X=c)>0.5$ 时，则认为这个区域属于该类，即落在这个区域的实例都将被视为该类。

右图为对应于条件概率分布的决策树。

如果输⼊维 $x_N$ 是离散的，取 $n$ 个可能的值之⼀，则该决策节点检查 $x_N$ 的值，并取相应分⽀，实现⼀个 $n$ 路划分。决策节点具有离散分⽀，数值输⼊应当离散化。如果 $x_N$ 是连续型数值，则测试⽐较：
$f_m(Y):x_N \geqq w_m$

其中 $w_m$ 是适当选择的阈值。该决策节点将输⼊空间⼀分为⼆： $L_m=\{Y|x_N\geqq w_m\}$ 和 $R_m=\{Y|x_N < w_m\}$ ，称作⼀个⼆元划分（binary split）。从根结点到叶结点的路径上的相继决策节点使⽤其他属性进⼀步把它们⼀分为⼆，产⽣相互正交的划分。此时，叶结点对应输⼊空间中的超矩形。

从图中可以看出，第⼀次划分后， $\{Y|x_1 \ge w_{10}\}$ 已经是纯的，所以不需要再划分。

二、决策树的特征选择

决策树学习的关键在如何选择最优划分属性。⼀般⽽⾔，随着划分过程不断进⾏，我们希望决策树的分⽀结点所包含的样本尽可能属于同⼀类别，即结点的 “纯度” （purity）越来越⾼。在分类树中，划分的优劣⽤不纯度度量（impurity-measure）定量分析。

假设 $p (i ∣ t)$ 表示给定节点 $t$ 中属于类 $i$ 的记录所占的比例，在二分类问题中，任意结点的类分布都可以记作 $p_0,p_1)$ ，其中 $p_1=1-p_0$ 。

那么对最优的划分度量常见的有3种：

信息熵（香农熵）
$Entropy(t)=-\sum^{c-1}_{i=0}{p(i|t)log_2p(i|t)}$
基尼系数
$Gini(t)=1-\sum^{c-1}_{i=0}{[p(i|t)]^2}$
分类误差
$Classification \ error(t)=1-\max_i[p(i|t)]$
注：其中 $c$ 是指类的个数，并且在计算信息熵的时候， $0log_20=0$ 。

下面给出二分类问题的三个不纯性度量方法的计算实例：

结点 $N_1$	计数
类=0	0
类=1	6

$Entropy=-(0/6)log_2(0/6)-(6/6)log_2(6/6)=0$

$Gini=1-(0/6)^2-(6/6)^2=0$

$Classification \ error=1-\max_i[0/6,6/6]=0$

结点 $N_1$	计数
类=0	1
类=1	5

$Entropy=-(1/6)log_2(1/6)-(5/6)log_2(5/6)=0.650$

$Gini=1-(1/6)^2-(5/6)^2=0.278$

$Classification \ error=1-\max_i[1/6,5/6]=0.167$

结点 $N_1$	计数
类=0	3
类=1	3

$Entropy=-(3/6)log_2(3/6)-(3/6)log_2(3/6)=1$

$Gini=1-(3/6)^2-(3/6)^2=0.5$

$Classification \ error=1-\max_i[3/6,3/6]=0.5$

下面给出二分类问题下不纯度度量的值域范围：

　　　　　　　　　　　　　　上图来自于数据挖掘导论（完整版）——范明、范宏建
　　　　　　　　　　　　　　
为了确定测试条件的效果，我们需要比较父结点（划分前）的不纯度和子女结点（划分后）的不纯成都，他们的差越大，测试条件的效果就越好。增益 $\Delta$ 是一种可以用来确定划分效果的标准：
$\Delta=I(parent)-\sum^k_{j=1}{\frac{N(v_j)}{N}I(V_j)}$
其中 $I (.)$ 是给定节点的不纯性度量， $N$ 是父节点上的记录总数， $k$ 是属性值的个数， $N(v_j)$ 是与子女结点 $v_j$ 相关联的记录个数。决策树归纳算法通常选择最大化增益 $\Delta$ 的测试条件，因为对所有的测试条件来说 $I (p a r e n t)$ 是一个不变的值，所以最大化增益等价于最小化子女结点的不纯性度量的加权平均值。最后当选择熵(entropy)作为度量时，熵的差就是所谓的信息增益 $\ gain）\Delta_{info}$ 。

1.对于离散属性的划分

直接使用上述的信息增益来对每一个离散属性来进行分类，找出信息增益最大的那个属性，对其进行结点的划分。

2.对于连续属性的划分

是对于连续值按照从小到大进行排列，并且按照每两个相邻属性值的均值划分，将所有的属性划分为二分类问题，并从中找到信息增益最大的那个划分点，并在这个点上进行划分。

上述介绍的信息增益是 $I D 3$ 所使用的方法，而在此基础上修改的 $C 4.5$ 算法运用的特征选择为增益率 $\ ration)$ 的划分标准来评估划分，增益率的定义如下：
$\ ration=\frac{\Delta_{info}}{Split \ Info}$
其中，划分信息 $\ Info=-\sum^{k}_{i=0}{p(v_i)log_2p(v_i)}$ ，而 $k$ 是划分的总数。
而 $C a r t$ 树所采用的划分指标则是使用的 $G i n i$ 系数，并且Cart树一定是二叉树。

三、决策树的算法手写代码实现（Python）

注：该手写代码基于ID3算法实现。
所使用的数据为：

No.	no surfacing	flippers	fish
0	1	1	yes
1	1	1	yes
2	1	0	no
3	0	1	no
4	0	1	no

使用上面的这个数据进行训练，并且使用前三行的数据来测试。

import numpy as np
import pandas as pd

def calEnt(dataSet):
    """
    函数功能:计算⾹农熵
    参数说明:
        dataSet:原始数据集
    返回:
        ent:⾹农熵的值
    """
    n = dataSet.shape[0] # 数据集总⾏数
    iset = dataSet.iloc[:,-1].value_counts() # 标签的所有类别
    p = iset/n # 每⼀类标签所占⽐
    ent = (-p*np.log2(p)).sum() # 计算信息熵
    return ent

# 创建数据集
def createDataSet():
    row_data = {
     'no surfacing':[1,1,1,0,0],
    'flippers':[1,1,0,1,1],
    'fish':['yes','yes','no','no','no']}
    dataSet = pd.DataFrame(row_data)
    return dataSet

# 选择最优的列进⾏切分
def bestSplit(dataSet):
    """
    函数功能：根据信息增益选择出最佳数据集切分的列
    参数说明：
        dataSet：原始数据集
    返回：
        axis：数据集最佳切分列的索引
    """
    baseEnt = calEnt(dataSet) # 计算原始熵
    bestGain = 0 # 初始化信息增益
    axis = -1 # 初始化最佳切分列，标签列
    for i in range(dataSet.shape[1]-1): # 对特征的每⼀列进⾏循环
        levels= dataSet.iloc[:,i].value_counts().index # 提取出当前列的所有取值
        ents = 0 # 初始化⼦节点的信息熵
        for j in levels: # 对当前列的每⼀个取值进⾏循环
            childSet = dataSet[dataSet.iloc[:,i]==j] # 某⼀个⼦节点的dataframe
            ent = calEnt(childSet) # 计算某⼀个⼦节点的信息熵
            ents += (childSet.shape[0]/dataSet.shape[0])*ent # 计算当前列的信息熵
        #print(f'第{i}列的信息熵为{ents}')
        infoGain = baseEnt-ents # 计算当前列的信息增益
        #print(f'第{i}列的信息增益为{infoGain}')
        if (infoGain > bestGain):
            bestGain = infoGain # 选择最⼤信息增益
            axis = i # 最⼤信息增益所在列的索引
    return axis

def mySplit(dataSet,axis,value):
    """
    函数功能：按照给定的列划分数据集
    参数说明：
        dataSet：原始数据集
        axis：指定的列索引
        value：指定的属性值
    返回：
        redataSet：按照指定列索引和属性值切分后的数据集
    """
    col = dataSet.columns[axis]
    redataSet = dataSet.loc[dataSet[col]==value,:].drop(col,axis=1)    #丢弃掉标题为col 的列
    return redataSet

def createTree(dataSet):
    """
    函数功能：基于最⼤信息增益切分数据集，递归构建决策树
    参数说明：
        dataSet：原始数据集(最有⼀列是标签)
    返回：
        myTree：字典形式的树
    """    
    featlist = list(dataSet.columns) # 提取出数据集所有的列
    classlist = dataSet.iloc[:,-1].value_counts() # 获取最后⼀列类标签
    # 判断最多标签数目是否等于数据集⾏数，或者数据集是否只有⼀列
    if classlist[0]==dataSet.shape[0] or dataSet.shape[1] == 1:
        return classlist.index[0] # 如果是，返回类标签
    axis = bestSplit(dataSet) # 确定出当前最佳切分列的索引
    bestfeat = featlist[axis] # 获取该索引对应的特征
    myTree = {
     bestfeat:{
     }} # 采用字典嵌套的⽅式存储树信息
    del featlist[axis] # 删除当前特征
    valuelist = set(dataSet.iloc[:,axis]) # 提取最佳切分列所有属性值
    for value in valuelist: # 对每⼀个属性值递归建树
        myTree[bestfeat][value] = createTree(mySplit(dataSet,axis,value))
    return myTree

def classify(inputTree,labels,testVec):
    """
    函数功能：对⼀个测试实例进⾏分类
    参数说明：
        inputTree：已经⽣成的决策树
        labels：存储选择的最优特征标签
        testVec：测试数据列表，顺序对应原数据集
    返回：
        classLabel：分类结果
    """
    firstStr = next(iter(inputTree)) # 获取决策树第⼀个节点  iter()函数获取这些可迭代对象的迭代器
    secondDict = inputTree[firstStr] # 下⼀个字典
    featIndex = labels.index(firstStr) # 第⼀个节点所在列的索引
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]) == dict :
                classLabel = classify(secondDict[key], labels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel

def acc_classify(train,test):
    """
    函数功能：对测试集进⾏预测，并返回预测后的结果
    参数说明：
        train：训练集
        test：测试集
    返回：
        test：预测分类后的测试集
    """
    inputTree = createTree(train) #根据测试集⽣成⼀棵树
    labels = list(train.columns) #数据集所有的列名称
    result = []
    for i in range(test.shape[0]): #对测试集中每⼀条数据进⾏循环
        testVec = test.iloc[i,:-1] #测试集中的⼀个实例
        classLabel = classify(inputTree,labels,testVec) #预测该实例的分类
        result.append(classLabel) #将分类结果追加到result列表中
    test['predict']=result #将预测结果追加到测试集最后⼀列
    acc = (test.iloc[:,-1]==test.iloc[:,-2]).mean() #计算准确率
    print(f'模型预测准确率为{acc}')
    return test


if __name__=='__main__':
    myTree = createTree(dataSet)
    train = createDataSet()
    test = dataSet.iloc[:3,:]
    test = acc_classify(train,test)
    print(test)

输出结果为

 模型预测准确率为1.0
    no surfacing  flippers fish predict
 0             1         1  yes     yes
 1             1         1  yes     yes
 2             1         0   no      no

四、决策树在SKlearn中的调用

Decision Trees在SKlearn中——https://scikit-learn.org/stable/modules/tree.html

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None,
min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None,
random_state=None,max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None,
class_weight=None, presort=False)

决策树（分类树）中的重要参数：

criterion : 分类标准。默认为’gini‘
可能输⼊的值有：
‘gini’：使用基尼系数来作为分类标准，
‘entropy’：使用信息熵来作为分类标准
splitter : 结点的分割策略。默认为‘best’
可能输⼊的值有：
‘random’：随机策略划分
‘best’：最优分类标准划分
max_depth : 最大树深，默认贪心算法指导无法分割。
min_samples_split : 最小样本结点，小于该最小样本结点则无法划分。默认为2。
如果该参数为整数，直接把参数作为最小标准。
如果该参数为浮点数，那么就把(min_samples_split * n_samples)作为最小标准
min_samples_leaf : 最小叶子结点，小于该叶子结点，则该次划分无效，默认为1。
如果该参数为整数，直接把参数作为最小标准。
如果该参数为浮点数，那么（min_samples_leaf * n_samples）是每个结点的样本的最小数目。
min_weight_fraction_leaf : 叶节点所需的（所有输入样本的）权重总和的最小加权分数。未提供样品重量时，样品重量相等。
max_features : 在寻找最佳分割时要考虑的特征数，默认为None
可能输⼊的值：
若为整数’int’：则在每次拆分时考虑“max_features”。
若为浮点数’float’：那么“max_features”是一个分数，并且每次拆分时都会考虑“int(max_features * n_features)”。
若为’auto’：那么“max_features=sqrt(n_features)”。
若为’sqrt’：则“max_features=sqrt(n_features)”。
若为’log2’：则“max_features=log2(n_features)”。
如果None：max_features=n_features”。
max_leaf_nodes : 最大叶子结点数。默认为None
可能输⼊的值：
int or None，具体数值或者没有限制。
min_impurity_decrease : 最小增益划分。默认为0.0
min_impurity_split : 最低不纯度划分。默认为None
class_weight : 分类权重，面对样本不均衡时使用。默认为None。可选‘balanced’，自动按照权重的反比输入数据。

下面举例用红酒数据集来展示决策树在SKlearn中的具体调用：
读取各个模块

from sklearn import tree                          #  导入决策树的模块
from sklearn.datasets import load_wine            #  导入红酒数据模块
from sklearn.model_selection import train_test_split  #导入划分训练集和数据集的模块
import matplotlib.pyplot as plt
%matplotlib inline

读取数据、划分训练集等

wine = load_wine()# 这里不作展示，自行查看wine数据集内的内容

Xtrain, Xtest, Ytrain, Ytest =train_test_split(wine.data,wine.target,test_size=0.3) #划分训练集和测试集

feature_name = ['酒精','苹果酸',      # 定义中文名，为之后画树做准备，这里是与wine.feature_names对应的
                '灰','灰的碱性',
                '镁','总酚',
                '类⻩酮','⾮⻩烷类酚类',
                '花⻘素','颜⾊强度','⾊调',
                'od280/od315稀释葡萄酒','脯氨酸']

plt.rcParams['font.sans-serif']=['Simhei']  # 设置字体
plt.rcParams['axes.unicode_minus']=False          #字符显示

查看得分情况

score =[]
for i in range(500):
    clf = tree.DecisionTreeClassifier(criterion = 'entropy',splitter='best')
    clf = clf.fit(Xtrain,Ytrain)
    score.append(clf.score(Xtest,Ytest))
print(set(score))

结果为：

{
     0.9444444444444444, 0.9814814814814815, 0.9259259259259259, 0.9629629629629629, 1.0, 0.9074074074074074}

将就上次最后一次的训练来画一棵决策树（调参过程就不细说，只是演示一次调用过程）

import graphviz
dot_data = tree.export_graphviz(clf,
                                out_file = None,
                                feature_names= feature_name ,
                                class_names=["琴酒","雪莉","贝尔摩德"] ,
                                filled=True,rounded=True)

graph = graphviz.Source(dot_data)
graph

重要接口：clf.predict(Xtest)
表示对于测试集类划分的反馈
结果如下：

array([1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 2, 0, 0, 1, 0, 1, 0, 1, 2, 2, 0, 0,
       1, 1, 1, 2, 2, 2, 0, 2, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 2, 0, 0,
       2, 1, 0, 1, 2, 0, 0, 1, 1, 0])

参考：
数据挖掘导论（完整版）——范明、范宏建

Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
从零到一：基于差分隐私决策树的客户购买预测系统实战开发笙囧同学决策树算法机器学习
作者简介：笙囧同学，中科院计算机大模型方向硕士，全栈开发爱好者联系方式：[email protected]各大平台账号：笙囧同学座右铭：偷懒是人生进步的阶梯文章导航快速导航前言-项目背景与价值项目概览-系统架构与功能技术深度解析-核心算法原理️系统实现详解-工程实践细节性能评估与分析-实验结果分析Web系统开发-前后端开发部署与运维-DevOps实践完整复现指南-手把手教程️实践案例与故障排除-问
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
Python 4.0新特性解析：性能优化与语法升级知识产权13937636601 计算机 python 性能优化开发语言
本文针对Python4.0的核心升级展开系统性分析，从性能优化与语法革新两个维度揭示其技术突破。首先解析新型解释器架构对运算效率的提升路径，其次探讨模式匹配、异步编程简化和类型系统强化等语法特性，最后结合机器学习与高并发场景验证新版本的实践价值。研究发现，Python4.0通过JIT编译器与内存管理重构实现3倍以上性能跃升，同时静态类型推导的完善显著提升大型项目维护效率，标志着Python从"胶水
数据挖掘算法：KNN、SVM、决策树详解大力出奇迹985 数据挖掘算法支持向量机
本文将详细解析数据挖掘领域中常用的三种经典算法：KNN（K近邻算法）、SVM（支持向量机）和决策树。首先分别阐述每种算法的核心原理、实现步骤，再分析它们的优缺点及适用场景，最后对这三种算法进行综合对比与总结。通过本文，读者能全面了解这三种算法的特性，为实际数据挖掘任务中算法的选择提供参考，助力提升数据处理与分析的效率和准确性。在当今信息爆炸的时代，数据挖掘技术在各行各业发挥着至关重要的作用，而算法
Python,C++,go语言开发社会犯罪人群回归社会跟踪与辅助管理APP Geeker-2025 python c++golang
开发一款用于**社会犯罪人群回归社会跟踪与辅助管理**的App，结合Python、C++和Go语言的优势，可以实现高效的数据处理、实时的跟踪监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python+Go）-**编程语言**：-**Python**：用于数据处理、机器学习（如风险评估、行为预测）、脚本编写等。-**Go**：用
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
【免费下载】探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破
探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破在这个数字化时代，人工智能正逐步改变我们的生活，其中深度学习在农业领域的应用尤其引人注目。PlantVillage-Dataset是一个开放源代码的项目，它提供了一个庞大的植物病害识别数据集，旨在帮助开发人员和研究者利用机器学习技术改善农作物健康状况的监测。本文将深入探讨该项目的技术细节、应用价值及其独特之处。项目简
Python 的 GIL 时代即将终结，迈向真正的多线程时代技术狂潮AI Python开发实战 AI编程实战 AI应用实战开发语言 GIL Python
Python功能强大、灵活且对程序员友好，广泛应用于从Web开发到机器学习的各个领域。根据引用次数最多的两项指标，Python甚至超越了Java和C等语言，成为最流行的编程语言。经过多年的流行，Python似乎势不可挡。但Python作为一种编程语言的未来发展至少面临一个重大障碍。它被称为GIL，即全局解释器锁，几十年来，Python开发人员一直试图将其从Python的默认实现中删除。虽然GIL在
如何从零开始入行机器学习
在当今的科技浪潮中，机器学习无疑是最耀眼的明星之一。它不仅引领了人工智能的发展，还在各个行业中催生了大量的创新和变革。对于那些对技术充满热情、渴望在这个领域有所作为的人来说，“如何从零开始入行机器学习”成为了最热门的话题之一。这不仅仅是技术上的挑战，更是一个职业生涯的新起点。想象一下，在未来的工作中，你能够开发出自动识别图像的应用程序，或者设计一个可以预测市场趋势的智能系统，这一切都源于你现在迈出
如何评价开课吧机器学习特训营这个课程？ cda2024 机器学习人工智能
开场：点明主题，吸引眼球在当今数据驱动的时代，机器学习（MachineLearning）已经成为各个行业不可或缺的技术之一。无论是金融、医疗、制造还是零售，机器学习的应用都为这些领域带来了巨大的变革。面对这样的趋势，许多人都希望能够掌握这门技术，从而提升自己的职业竞争力。那么，当我们谈论“如何评价开课吧机器学习特训营这个课程”时，实际上是在探讨一个非常具体且重要的问题：对于那些希望进入或深入机器学
Anaconda（AI生成测试） harrio_ python
技术文章大纲：Anaconda插件开发挑战赛引言Anaconda作为数据科学与机器学习的核心工具，其插件生态系统的扩展性为开发者提供了广阔的创新空间。插件开发挑战赛旨在激励开发者探索Anaconda的潜力，解决实际场景中的技术痛点。以下为技术文章的核心框架。Anaconda插件开发的核心价值插件开发能够增强Anaconda的功能模块化，例如集成新的编程语言支持、优化包管理流程或扩展可视化工具。通过
Python与机器学习库Scikit-learn进阶 master_chenchengg python python Python python开发 IT
Python与机器学习库Scikit-learn进阶Scikit-learn进阶之旅：从新手到高手的必经之路为什么选择Scikit-learn？安装与环境设置特征工程的艺术：打造更强大的预测模型数据清洗特征构造模型调优秘籍：网格搜索与交叉验证的最佳实践网格搜索交叉验证集成学习的魅力：提升模型性能的组合拳随机森林梯度提升机堆叠实战案例解析：使用Scikit-learn解决真实世界问题数据准备模型训练
表征学习：机器认知世界的核心能力与前沿突破大千AI助手人工智能 #OTHER Python 学习人工智能机器学习神经网络表征学习 RL 特征工程
一、定义与背景：从特征工程到自动化学习表征学习（RepresentationLearning），又称特征学习（FeatureLearning），是机器学习的核心技术领域，其核心目标是通过算法自动学习数据的内在特征表示，将复杂多变的原始数据（如图像、文本、语音）转化为低维、富含语义信息的向量形式，从而提升下游任务（如分类、回归、聚类）的效率和精度。与传统依赖人工设计特征的特征工程（FeatureEn
踏上人工智能之旅（一）-----机器学习之knn算法 Sunhen_Qiletian 人工智能机器学习算法 python
目录一、机器学习是什么（1）概述（2）三种类型1.监督学习（SupervisedLearning）：2.无监督学习（UnsupervisedLearning）：3.强化学习（ReinforcementLearning）：二、KNN算法的基本原理：1.距离度量：2.K值的选择：3.投票机制和投票：三、Python实现KNN算法1.导入必要的库和数据：2.提取特征和标签：3.导入KNN分类器并训练模型
【Python】pandas.cut()函数的用法
pandas.cut()函数是一个非常有用的工具，用于将数值型数据按照指定的分箱或区间进行分割，从而将连续的数值变量转换为离散的类别变量。这在数据分析和机器学习的特征工程中尤其有用，因为它可以帮助揭示不同区间内的数据分布特征，或者简化模型的输入。基本用法pandas.cut()的基本语法如下：pandas.cut(x,bins,right=True,labels=None,retbins=Fals
以AI人工智能为核心，发展空间智能 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
以AI人工智能为核心，发展空间智能关键词：人工智能、空间智能、智能系统、机器学习、计算机视觉、物联网、自动化技术摘要：本文围绕"以AI人工智能为核心发展空间智能"这一主题，系统解析空间智能的技术架构与实现路径。通过揭示AI与空间智能的核心关联，深入探讨机器学习、计算机视觉、数字孪生等关键技术如何赋能空间数据的感知、处理与决策。结合智能建筑、智慧城市等实际场景，展示从算法原理到工程落地的完整技术链条
Python金融分析：情感分析在量化价值投资中的完整实现 AI量化价值投资入门到精通 python 金融开发语言 ai
Python金融分析：情感分析在量化价值投资中的完整实现关键词：Python金融分析、情感分析、量化投资、价值投资、自然语言处理、机器学习、金融文本挖掘摘要：本文系统解析如何将情感分析技术深度整合到量化价值投资体系中，通过Python实现从金融文本数据采集、预处理、情感建模到策略回测的完整流程。详细阐述基于规则引擎、机器学习和深度学习的多维度情感分析方法，结合财务指标构建复合投资模型，并通过实战案
通用图片 OCR 到 Word API 数据接口 2301_78772565 ocr
通用图片OCR到WordAPI数据接口高可用图像识别引擎，基于机器学习，超精准识别率。1.产品功能通用的识别接口，支持多种图片格式；支持中英文字符混合识别；支持Base64以及网络地址传参；基于机器学习不断提高的识别率；输出的Word文件永久存储；数据持续更新与维护；全接口支持HTTPS（TLSv1.0/v1.1/v1.2/v1.3）；全面兼容AppleATS；全国多节点CDN部署；接口极速响应，
机器学习模型评估：交叉验证、混淆矩阵、ROC曲线及其在医学影像领域的应用猿享天开机器学习矩阵人工智能 DICOM医学影像模型评估
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio