~宪宪

Python机器学习（二）：决策树(Decision Tree-DTs)

Python机器学习（二）：决策树(Decision Tree-DTs)
一、什么是决策树
- 1.基本概念
- 2.决策树算法的核心问题
- 3.决策树的优缺点
二、决策树的原理
- 1.ID3 算法
- - 1.1 ID3 算法步骤
  - 1.2 信息熵、条件熵和信息增益
- 2.C4.5 算法
- - 2.1 信息增益率
  - 2.2 C4.5 剪枝
  - 2.3 C4.5 算法的缺点
- 3.CART 算法
- - 3.1 CART 算法介绍
  - 3.2 分类问题——基尼指数(Gini)
  - 3.3 回归问题——均方差
  - 3.4 CART 剪枝步骤
- 4.决策树算法差异总结
三、决策树的sklearn实现
- 1.sklearn中的决策树类
- 2.分类决策树
- - 2.1 构建一棵分类决策树
  - 2.2 可视化
  - 2.3 剪枝参数
  - 2.4 确定最优的剪枝参数
- 3.回归决策树
- - 3.1 构建一棵回归决策树
  - 3.2 交叉验证
四、案例：泰坦尼克号幸存者预测

一、什么是决策树

1.基本概念

决策树是一种用于分类和回归的非参数有监督学习方法，其目标是创建一个模型，通过学习从数据特性中推断出的简单决策规则来预测目标变量的值，决策树算法，简单来说，就是一系列的 if...then...else 组合

如表所示：

名称	体温	表皮	胎生	水生生物	飞行生物	…	标签
人类	恒温	毛发	是	否	否	…	哺乳类
鲸鱼	恒温	毛发	是	是	否	…	哺乳类
鸽子	恒温	羽毛	否	否	是	…	鸟类
海龟	冷血	鳞片	否	半	否	…	爬行类
蝾螈	冷血	无	否	半	否	…	两栖类
蜘蛛	…

如果目标是对哺乳类和非哺乳类进行分类，则根据上表建立的决策树模型：

决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子节点，将叶子节点的存放的类别作为决策结果

建立决策树模型的一般步骤： （一）特征选择、（二）决策树的生成、（三）决策树的修剪

2.决策树算法的核心问题

如何从数据表中找出最佳节点和最佳分枝
数据表中有很多属性/特征，如何选择特征和特征的顺序来构建性能最佳的决策树？
如何让决策树停止生长，防止过拟合
为了尽可能正确地分类训练集，决策数会为所有属性都建立节点，这样就可能对训练样本学习得“太好”了，把训练样本的一些特点当做所有数据都具有的一般性质，从而导致过拟合
解决过拟合问题，我们需要对决策树进行剪枝处理

3.决策树的优缺点

优点：
1.易于理解和解释，决策树可以被可视化
2.几乎不需要数据准备，其他算法通常需要数据标准化，需要创建虚拟变量并删除缺失值
3.可自动忽略目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量的数目提供参考
缺点：
1.容易造成过拟合，需要采用剪枝操作
2.忽略了数据之间的相关性
3.对于各类别样本数量不一致的数据，信息增益会偏向于那些更多数值的特征

二、决策树的原理

建立决策树的关键，即在当前状态下选择哪个属性作为分类依据，根据不同的目标函数，建立决策树主要有以下三种算法：

ID3(Iterative Dichotomiser)
C4.5、C5.0
CART(Classification And Regression Tree)

算法	支持场景	树结构	特征选择	连续值处理	缺失值处理	剪枝	特征属性多次使用
ID3	分类	多叉树	信息增益	不支持	不支持	不支持	不支持
C4.5	分类	多叉树	信息增益率	支持	支持	支持	不支持
CART	分类、回归	二叉树	基尼指数均方差	支持	支持	支持	支持

1.ID3 算法

ID3 算法的核心是信息熵，期望信息越小，信息熵越大，样本纯度越低，决策树对训练集的拟合度越差；期望信息越多，信息熵越小，样本纯度越高，决策树对训练集的拟合度越差。而熵越小，信息增益越大
ID3 算法计算每个属性的信息增益，并利用信息增益作为决策树每级节点属性的选择标准

1.1 ID3 算法步骤

准备好训练集特征和训练集数据
计算数据集合的信息熵和所有特征的条件熵，选择信息增益最大的特征作为决策树当前最优决策节点
删除上一步已使用的特征/属性，并按照已构建的决策树节点，将训练集数据分类
分析分类效果，决定是否重复 2，3 两步；若最后子集值包含单一特征，则为分支叶子节点

1.2 信息熵、条件熵和信息增益

信息熵的表示式为：
$H(D)=-\sum_{i=1}^n{p_i(\log_2{p_i})}$

其中， $D$ 表示一个数据集， $n$ 表示这是 $n$ 分类问题， $i$ 表示某一标签，样本点属于标签 $i$ 的概率为 $p_i$

如果数据集根据某个属性 $A$ 被划分为 $m$ 类，条件熵的表示式为：

$H(D|A)=\sum_{j=1}^m{ {D_j \over D}H(D_j)}$

其中， $D$ 表示数据集的样本数， $A$ 是某一特征/属性， $m$ 表示该属性有多少种不同类别， $j$ 表示该属性的某一类， $D_j$ 表示属于 $j$ 类的样本数目， $H(D_j)$ 表示属于 $j$ 类的样本的信息熵

信息增益的表示式为：
$G a i n (D, A) = H (D) - H (D ∣ A)$

其中， $G a i n (D, A)$ 表示数据集 $D$ 中，属性 $A$ 的信息增益

例如： 下面训练集中，样本总数： $15$ ，类别数： $n = 2$ ，显然这是二分类问题，计算 $A = 年龄$ 时划分的信息增益

其中标签为否的样本有6个，标签为是的样本有9个，因此训练集的信息熵为：
$H=-\sum_{i=1}^2{p_i(\log_2p_i)}=-{6 \over 15}(\log_2{6 \over 15})-{9 \over 15}(\log_2{9 \over 15})≈0.971$

如果按年龄划分，则此时

序号	年龄	数目	类别：是	类别：否
1	青年	5	2	3
2	中年	5	3	2
3	老年	5	4	1

首先分别计算 $H(D_{j=1})$ ， $H(D_{j=2})$ ， $H(D_{j=3})$ 的大小：
$H(D_{j=1})=-{2 \over 5}(\log_2{2 \over 5})-{3 \over 5}(\log_2{3 \over 5})≈0.971$

$H(D_{j=2})=-{3 \over 5}(\log_2{3 \over 5})-{2 \over 5}(\log_2{2 \over 5})≈0.971$

$H(D_{j=3})=-{4 \over 5}(\log_2{4 \over 5})-{1 \over 5}(\log_2{1 \over 5})≈0.7219$

此时，分别计算条件熵为：
$H(D|年龄)=\sum_{j=1}^3{ {D_j \over D}H(D_j)}={ {5 \over 15}\times0.971}+{ {5 \over 15}\times0.971}+{ {5 \over 15}\times0.7219}≈0.8897$

计算信息增益为：
$G a i n (D, 年龄) = H (D) - H (D ∣ 年龄) = 0.971 - 0.8897 = 0.2491$

同理，我们可以计算出 $A$ 分别为 {有工作, 有房子, 信用} 时的信息增益，最后比较 $A$ 取不同属性时信息增益的大小，最终我们将选取信息增益最大的属性作为决策树的节点

2.C4.5 算法

C4.5 算法是对 ID3 算法的改进，其使用的是信息增益率而非信息增益来选择属性，并且加入了剪枝操作

2.1 信息增益率

信息增益的表示式为：
$\over H(D)}，其中Gain(D,A)=H(D)−H(D|A)$

其中， $H (D)$ 为训练集的信息熵，其实求信息增益率就是比求信息增益多一个除法运算的步骤

2.2 C4.5 剪枝

由于决策树容易过拟合，因此我们需要对决策树进行剪枝，以提高其泛化性能

剪枝的基本策略有“预剪枝”（prepruning）和“后剪枝”（post-pruning）

预剪枝策略：
预剪枝在划分节点前，就要先确定决策树是否继续增长，及时停止增长

停止增长的主要判断依据：
节点内数据样本已低于某一阈值
所有节点特征都已划分
节点划分前准确率比划分后准确率高

预剪枝的特点：
预剪枝不仅可以降低过拟合的风险而且还可以减少训练时间，但另一方面它是基于“贪心”策略，会带来欠拟合风险
后剪枝策略：
在已经生成的决策树上进行剪枝，从而得到简化版的剪枝决策树
后剪枝决策树通常比预剪枝决策树保留了更多的分支

后剪枝主要方法：
采用的悲观剪枝方法，用递归的方式从低往上针对每一个非叶子节点，评估用一个最佳叶子节点去代替这课子树是否有益，如果剪枝后与剪枝前相比其错误率是保持或者下降，则这棵子树就可以被替换掉
通过训练数据集上的错误分类数量来估算未知样本上的错误率

后剪枝的特点：
一般情况下，后剪枝的欠拟合风险更小，泛化性能往往优于预剪枝决策树

2.3 C4.5 算法的缺点

剪枝策略可以再优化，且其使用的是多叉树，而使用二叉树效率更高
C4.5 算法只能用于分类
C4.5 使用的熵模型拥有大量耗时的对数运算，连续值还有排序运算
C4.5 在构造树的过程中，对数值属性值需要按照其大小进行排序，从中选择一个分割点，所以只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时，程序无法运行

3.CART 算法

3.1 CART 算法介绍

用基尼指数来选择属性（分类），或用均方差来选择属性（回归），基尼指数表示集合的不确定性

显然，CART 算法既可以用于创建分类树，也可以用于创建回归树，两者的构建过程稍有差异，如果目标变量是离散的，称为分类树，如果目标变量是连续的，称为回归树

3.2 分类问题——基尼指数(Gini)

在多分类问题中，概率分布的基尼指数为：
$Gini(p)=\sum_{k=1}^K{p_k(1-p_k)}$

其中， $K$ 表示这是 $K$ 分类问题， $k$ 表示某一标签，样本点属于标签 $k$ 的概率为 $p_k$

在二分类问题中，概率分布的基尼指数为：
$Gini(p)=2p(1-p)=1-p^2-(1-p)^2$

其中， $p$ 表示样本标签属于任一标签的概率， $(1 - p)$ 则与 $p$ 互补

由于 CART 需要构建二叉树，因此应根据某一属性将数据集划分为两类，假如数据集根据属性 $A$ 划分为 $D_1$ 和 $D_2$ 两部分，则基尼指数表示式为：
$Gini(D,A)={D_1 \over D}Gini(D_1)+{D_2 \over D}Gini(D_2)$

其中， $D$ 表示数据集的样本数，且满足 $D=D_1+D_2$ ， $Gini(D_1)$ 或 $Gini(D_2)$ 中 $p_k$ 分别是 $D_1$ 或 $D_2$ 中样本点属于标签 $k$ 的概率

例如： 分别计算按：{ $D_1=青年$ ， $D_2=其他$ }、{ $D_1=中年$ ， $D_2=其他$ }、{ $D_1=老年$ ， $D_2=其他$ } 来划分数据集时的基尼指数

①按 { $D_1=青年$ ， $D_2=其他$ } 划分时：
$Gini(D,A_1=青年)={5 \over 15}\underbrace{[2 \times{2 \over 5}\times(1-{2 \over 5})]}_{Gini(D_1)}+{10 \over 15}\underbrace{[2 \times{7 \over 10}\times(1-{7 \over 10})]}_{Gini(D_2)}=0.44$

②按 { $D_1=中年$ ， $D_2=其他$ } 划分时：
$Gini(D,A_2=中年)={5 \over 15}\underbrace{[2 \times{3 \over 5}\times(1-{3 \over 5})]}_{Gini(D_1)}+{10 \over 15}\underbrace{[2 \times{6 \over 10}\times(1-{6 \over 10})]}_{Gini(D_2)}=0.48$

③按 { $D_1=老年$ ， $D_2=其他$ } 划分时：
$Gini(D,A_3=老年)={5 \over 15}\underbrace{[2 \times{4 \over 5}\times(1-{4 \over 5})]}_{Gini(D_1)}+{10 \over 15}\underbrace{[2 \times{5 \over 10}\times(1-{5 \over 10})]}_{Gini(D_2)}=0.44$

3.3 回归问题——均方差

根据某一属性 $A = a$ 进行划分，选择任一划分点 $s$ 将数据集划分成 $D_1$ 和 $D_2$ 两个集合，求出使 $D_1$ 和 $D_2$ 各自集合的均方差最小，同时求出使 $D_1$ 和 $D_2$ 的均方差值的最小值之和具有最小值：
$m=min_{a,s}[min_{c_1}\sum_{x_i\in D_1}(y_i-c_1)^2+min_{c_2}\sum_{x_i\in D_2}(y_i-c_2)^2]$

其中， $x_i$ 表示输入值， $y_i$ 表示对应的输出值， $c_1$ 为 $D_1$ 数据集的所有样本输出值的均值， $c_2$ 为 $D_2$ 数据集的所有样本输出值的均值

使上式成立时的属性 $a$ 和划分点 $s$ 就是最佳输入值划分属性和最佳输入值划分点；此时的 $c_1$ 和 $c_2$ 分别就是划分出两类的输出预测值

例如： 看下表，计算按属性 $A = 职业$ 划分时， ${“学生”,“上班族”,“老师”\}$ 的最佳输入值划分点 $s$ 和输出预测值

①按 { $D_1=学生$ ， $D_2=其他$ } 划分时：
$c_1={12+18+21 \over 3}=17，c_2={26+47+36+29 \over 4}=34.5$

$m=\sum_{x_i\in D_1}(y_i-c_1)^2+\sum_{x_i\in D_2}(y_i-c_2)^2=303，其中y_i\in\{(12,18,21),(26,47,36,29)\}$

②按 { $D_1=老师$ ， $D_2=其他$ } 划分时：
$c_1={26+29 \over 2}=27.5，c_2={12+18+47+36+21 \over 5}=26.5$

$m=\sum_{x_i\in D_1}(y_i-c_1)^2+\sum_{x_i\in D_2}(y_i-c_2)^2=742.66，其中y_i\in\{(26,29),(12,18,47,36,21)\}$

③按 { $D_1=上班族$ ， $D_2=其他$ } 划分时：
$c_1={47+36 \over 2}=41.5，c_2={12+18+26+29+21 \over 5}=21.2$

$m=\sum_{x_i\in D_1}(y_i-c_1)^2+\sum_{x_i\in D_2}(y_i-c_2)^2=238.8，其中y_i\in\{(47,36),(12,18,26,29,21)\}$

比较知： $238.8 < 303 < 742.66$ ，因此，当按 $a = 职业$ 划分时，有：
$min_{职业}[min_{c_1}\sum_{x_i\in D_1}(y_i-c_1)^2+min_{c_2}\sum_{x_i\in D_2}(y_i-c_2)^2]$

此时，按 { $D_1=上班族$ ， $D_2=其他$ } 作为输入划分，而 $c_1=41.5，c_2=21.2$ 则为输出预测值最佳
$f(x)=\left\{ \begin{aligned} 41.5&，x\in\{上班族\} \\ 21.2&，x\in\{“老师”,“学生”\} \end{aligned} \right.$

实际上，我们只计算了 $A = 职业$ 的情况，还需要计算 $A=\{“看电视时长”,“婚姻状况”\}$ 的情况，才能计算出均方差的最小值 $min_{a,s}[min_{c_1}\sum_{x_i\in D_1}(y_i-c_1)^2+min_{c_2}\sum_{x_i\in D_2}(y_i-c_2)^2]$ 才能筛选出最佳的划分属性及其划分点和输出值

3.4 CART 剪枝步骤

计算每一个节点的条件熵
递归地从叶子节点开始往上遍历，减掉叶子节点，然后判断损失函数的值是否减少，若减少，则将父节点作为新的叶子节点
重复2,直到完全不能剪枝为止

CART 剪枝的特点：
CART 算法采用一种“基于代价复杂度的剪枝”方法进行后剪枝，这种方法会生成一系列树，每棵树都是通过将前面的树的某个或某些子树替换成一个叶节点而得到的，这一系列树中的最后一棵树仅含一个用来预测类别的叶节点。然后用一种成本复杂度的度量准则来判断哪棵子树应该被一个预测类别值的叶节点所代替
这种方法需要使用一个单独的测试数据集来评估所有的树，根据它们在测试数据集熵的分类性能选出最佳的树

4.决策树算法差异总结

划分标准的差异：
ID3 使用的信息增益偏向于特征值多的特征
C4.5 使用的信息增益率克服了信息增益的缺点，偏向于特征值少的特征
CART 使用基尼指数克服了 C4.5 对 log 的巨大计算量，偏向于特征值较多的特征
使用场景的差异：
ID3 和 C4.5 均只能用于分类问题
CART 可以用于分类和回归问题
ID3 和 C4.5 是多叉树，速度较慢，CART 是二叉树，计算速度很快
样本数据的差异：
ID3 只能处理离散数据，且该算法对缺失值敏感
C4.5 和 CART 可以处理连续性数据且有多种方式处理缺失值
如果从样本量来考虑，小样本建议使用 C4.5、大样本建议使用 CART
C4.5 处理过程中需对数据集进行多次扫描排序，处理成本耗时较高，而 CART 本身是一种大样本的统计方法，小样本处理下泛化误差较大
样本特征的差异：
ID3 和 C4.5 层级之间只使用一次特征，CART 可多次重复使用特征
剪枝策略的差异：
ID3 没有剪枝策略，C4.5 是通过悲观剪枝策略来修正树的准确性，而 CART 是通过代价复杂度剪枝

三、决策树的sklearn实现

本文仅展示常用参数，若想了解更详细的参数，请参考：sklearn中文社区

1.sklearn中的决策树类

# 导入决策树模块
from sklearn import tree

类方法	解释
tree.DecisionTreeClassifier	分类树
tree.DecisionTreeRegressor	回归树
tree.export_graphviz	将生成的决策树导出为DOT格式，实现决策树可视化
tree.ExtraTreeClassifier	高随机版本的分类树
tree.ExtraTreeRegressor	高随机版本的回归树

2.分类决策树

2.1 构建一棵分类决策树

clf = tree.DecisionTreeClassifier(…)

初始化分类树

criterion 切分依据：{“gini”：基尼指数, “entropy”：信息增益}, default=”gini”
splitter 拆分策略选择：{“best”：最佳拆分策略, “random”：最佳随机拆分策略}, default=”best”
max_depth 树的最大深度：int, default=None，int 类型：树的最大深度，None：将所有节点展开
min_samples_split 一个节点必须要包含至少 min_samples_split 个训练样本，这个节点才允许被分枝，否则分枝就不会发生：int or float, default=2，int 类型：样本数，float 类型：占样本总数的比例，向下取整
min_samples_leaf 节点在分枝后的每个子节点必须包含至少 min_samples_leaf 个训练样本，否则不会分枝：int or float, default=1，int 类型：样本数，float 类型：占样本总数的比例，向下取整
（即该参数规定了叶子节点处所需的最小样本数）
max_features 寻找最佳划分属性时要考虑的属性数量：int, float or {“auto”, “sqrt”, “log2”}, default=None
min_impurity_decrease 如果节点分枝会导致不纯度的减少大于或等于该值，则该节点将被分裂分枝：float, default=0.0
返回值 分类决策树对象

clf.fit(X, y[, sample_weight, check_input, …])

根据训练集数据和标签 （X，y）建立决策树分类器
X 必须是二维及以上的数组
y 必须是一维数组，注：shape=(1,80) 仍然是二维数组，shape=(80, ) 才是一维数组

clf.score(X, y[, sample_weight])

使用测试集数据和标签 （X，y） 测试决策树，并返回给定测试数据和标签上的平均准确度

clf.feature_importances_

查看各属性在决策树中的贡献度

clf.apply(X_test)

返回每个测试样本所在的叶子节点的索引

clf.predict(X_test)

返回每个测试样本的分类/回归预测结果

例如： 导入葡萄酒数据集，对决策树进行训练、测试，并输出准确度

# 导入相关库
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn import tree

# 加载并返回葡萄酒数据集
wine = load_wine()

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3)

# 初始化决策树
clf = tree.DecisionTreeClassifier()
# 训练决策树
clf = clf.fit(X_train, y_train)
# 测试决策树
score = clf.score(X_test, y_test)
predict = clf.predict(X_test)
score, predict

打印准确度和分类情况：

2.2 可视化

# 导入相关库
import graphviz

dot_data = tree.export_graphviz(…)

绘图，把决策树可视化

decision_tree 用来做可视化的决策树对象
out_file 输出文件的名称，如果为 None，则结果以字符串形式返回
max_depth 描绘的最大深度，如果为 None，则这树完全生长
feature_names 每个特征的名字：list of strings, optional, default=None
class_names 每个目标类别/标签的名称（按升序排列）：list of strings, bool or None, default=None
label 是否显示不纯度的信息性标签等：{‘all’：显示在每个节点上, ‘root’：显示在根节点上, ‘none’：显示任何节点上}, default=’all’
filled bool, default=False，设置为True时，绘制节点以表示多数类用于分类问题，值的极值用于回归问题，或表示节点的纯度用于多输出问题，简单来说，就是给方框填充颜色，而颜色的深浅代表节点的纯度
rounded 设置为True时，绘制带有圆角的节点框，并使用赫维提卡字体 (Helvetica) 代替新罗马字体 (Times-Roman)
返回值 string，树模型 GraphViz dot 格式的字符串

graphviz.Source(dot_data)

将树模型的 GraphViz dot 格式字符串转化为可视化图片

例如： 将葡萄酒决策树可视化

# 导入相关库
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn import tree
import graphviz

# 加载并返回葡萄酒数据集
wine = load_wine()

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3)

# 初始化决策树
clf = tree.DecisionTreeClassifier()
# 训练决策树
clf = clf.fit(X_train, y_train)
# 测试决策树
score = clf.score(X_test, y_test)

# 根据数据集，定义一个中文的属性名列表和分类标签列表
feature_names = ['酒精', '苹果酸', '灰', '灰的碱性', '镁',
                '总酚', '类黄酮', '非黄烷类酚类', '花青素',
                '颜色强度', '色调', 'od280/od315稀释葡萄酒', '脯氨酸']
class_names = ["琴酒", "雪莉", "贝尔摩德"]

# 将决策树可视化
dot_data = tree.export_graphviz(clf,
                                feature_names = feature_names,
                                class_names = class_names,
                                filled = True,
                                rounded = True)
graph = graphviz.Source(dot_data)
graph

输出结果如图所示，当然每次运作出来的结果可能不一样：（因为我们在调用 train_test_split() 方法时并没有设置随机数种子，因此它每次分配训练集和数据集都是随机的，因此我们可以设置 random_state=?，使得每次构建的决策树是一样的，而我们可以通过调整 random_state 的值，来决定选择精度最高的决策树模型）

我们发现，所构建的决策树并没有使用全部属性：（其中输出的数是各属性对构建决策树的贡献度，根节点对决策树的贡献一般是最高的）

2.3 剪枝参数

为了避免决策树过拟合，我们可以对决策树进行剪枝

DecisionTreeClassifier(…) 的剪枝相关参数：
max_depth 树的最大深度：int, default=None，int 类型：树的最大深度，None：将所有节点展开
min_samples_split 一个节点必须要包含至少 min_samples_split 个训练样本，这个节点才允许被分枝，否则分枝就不会发生：int or float, default=2，int 类型：样本数，float 类型：占样本总数的比例，向下取整
min_samples_leaf 节点在分枝后的每个子节点必须包含至少 min_samples_leaf 个训练样本，否则不会分枝：int or float, default=1，int 类型：样本数，float 类型：占样本总数的比例，向下取整

max_depth 一般越小越好，因为树的深度越低，泛化性能越好，树的深度越深，意味着对样本的数量需求翻倍，建议从 3 开始寻找
min_samples_leaf 该参数太小会引起过拟合，太大会阻止模型学习数据，一般建议从 5 开始使用；对于类别不多的分类问题，1 通常就是最佳选择
调节这些参数，使得测试集精度越高越好

DecisionTreeClassifier(…) 的剪枝相关参数：（搭配 max_depth 使用，这些参数用于树的“精修”）
max_features 寻找最佳划分属性时要考虑的属性数量：int, float or {“auto”, “sqrt”, “log2”}, default=None
min_impurity_decrease 如果节点分枝会导致不纯度的减少大于或等于该值，则该节点将被分裂分枝：float, default=0.0

max_features 用来限制高维度数据的过拟合的剪枝参数，在不知道决策树中的各个特征的重要性的情况下，强行设定这个参数可能会导致模型学习不足，如果希望通过降维的方式防止过拟合，建议使用 PCA、ICA 或特征选择模块中的降维算法
min_impurity_decrease 限制信息增益的大小，信息增益小于设定数值的分枝不会发生，该值通常在 0~0.5 之间

DecisionTreeClassifier(…) 中较少使用，但也比较重要的剪枝参数：
class_weight 以 {class_label: weight} 的形式表示与类别/标签的权重，如果取值None，则所有分类的权重为1，对于多输出问题，可以按照 y 列的顺序提供一个字典列表：dict, list of dict or “balanced”, default=None
min_weight_fraction_leaf float, default=0.0，在所有叶节点处（所有输入样本）的权重总和中的最小加权分数，如果未提供 sample_weight，则样本的权重相等

class_weight 有时候，有些数据的标签天生所占的比例较大，比如：航天公司想预测某一天的航班是否会发生事故，但我们知道，飞机发生事故的概率是极低的，在这种分类状况下，模型在训练的时候会更多地关注不发生事故的样本，而对发生事故的样本的捕捉度很低，即使模型什么也不做，全把结果预测成“不会发生事故”，其模型的正确率也会非常高
因此我们需要使用 class_weight 这个参数给样本数小的标签给予更高的权重，让模型更偏向于样本数小的标签
有了权重之后，训练就会受权重的影响，因此这时候剪枝，就需要搭配 min_weight_fraction_leaf 这个基于权重的剪枝参数来使用

2.4 确定最优的剪枝参数

可以通过绘制超参数曲线来确定最优的剪枝参数

例如： 对 max_depth 循环调参，并绘制超参数曲线

# 导入相关库
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn import tree
import matplotlib.pyplot as plt

# 加载并返回葡萄酒数据集
wine = load_wine()
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3, random_state=20)

# 创建空列表，作为绘图的纵坐标
test = []
for i in range(10):
    clf = tree.DecisionTreeClassifier(max_depth=i+1,  		# 每次循环 max_depth + 1
                                      criterion="entropy",	# 使用信息增益率
                                      random_state=30,
                                      splitter="random",)	# 最优随机拆分策略
    clf = clf.fit(X_train, y_train)  						# 对设置的参数进行测试
    score = clf.score(X_test, y_test)
    test.append(score)  									# 将新的测试精度结果合并到 test 列表中


plt.figure()  												# 创建画布
plt.plot(range(1,11), test, color="b", label="max_depth")  	# 绘制折线图
plt.legend()  												# 显示图例
plt.show()

发现 max_depth 取值为 4、5 时 score 最高，此时模型最佳

3.回归决策树

3.1 构建一棵回归决策树

clf = tree.DecisionTreeRegressor(…)

初始化回归树
几乎所有参数，属性和接口都和分类决策树树一样，需要注意的是，在回归树决策树中，没有标签分布是否均衡的问题（因为回归树是连续的），因此没有 class_weight 这样的参数

criterion 计算分枝好坏的依据：{“mse”：均方误差, “friedman_mse”：弗里德曼均方误差, “mae”：平均绝对误差}, default=”mse”
虽然均方误差永远为正，但是sklearn当中使用均方误差作为评判标准时，却是计算”负均方误差“（neg_mean_squared_error），这是sklearn开发者为了区分而将误差归为负数，而均方误差本身也是一种损失量(Loss)，因此实际上均方误差就是 neg_mean_squared_error 的负值
splitter 拆分策略选择：{“best”：最佳拆分策略, “random”：最佳随机拆分策略}, default=”best”
max_depth 树的最大深度：int, default=None，int 类型：树的最大深度，None：将所有节点展开
min_samples_split 一个节点必须要包含至少 min_samples_split 个训练样本，这个节点才允许被分枝，否则分枝就不会发生：int or float, default=2，int 类型：样本数，float 类型：占样本总数的比例，向下取整
min_samples_leaf 节点在分枝后的每个子节点必须包含至少 min_samples_leaf 个训练样本，否则不会分枝：int or float, default=1，int 类型：样本数，float 类型：占样本总数的比例，向下取整
（即该参数规定了叶子节点处所需的最小样本数）
max_features 寻找最佳划分属性时要考虑的属性数量：int, float or {“auto”, “sqrt”, “log2”}, default=None
min_impurity_decrease 如果节点分枝会导致不纯度的减少大于或等于该值，则该节点将被分裂分枝：float, default=0.0
返回值 回归决策树对象

clf.fit(X, y[, sample_weight, check_input, …])

根据训练集数据和标签 （X，y）建立决策树分类器
X 必须是二维及以上的数组
y 必须是一维数组，注：shape=(1,80) 仍然是二维数组，shape=(80, ) 才是一维数组

clf.score(X, y[, sample_weight])

使用测试集数据和标签 （X，y） 测试决策树，并返回返回预测的确定系数 $R^2$ ， $R^2\rightarrow1$ 越好

clf.feature_importances_

查看各属性在决策树中的贡献度

clf.apply(X_test)

返回 X_test 中每个测试样本所在的叶子节点的索引

clf.predict(X_test)

预测 X_test 的类或回归值

例如： 一维回归图像的绘制（涉及numpy的使用、降维和升维、matplotlib绘图，不熟悉可以参考我的数据挖掘）

（一）数据准备：

# 导入相关库
import numpy as np
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt


rng = np.random.RandomState(1)  		# 设置随机数种子，返回随机数种子对象
X_train = np.sort(5 * rng.rand(80,1), axis=0) # 使用随机数种子，生成均匀分布在[0,5]，shape=(80,1)的数组，并进行排序
y_train = np.sin(X_train).ravel()  					# 将X代入正弦函数，得到对应的[-1,1]的y值，并将多维数组转换为一维数组

y[::5] += 3 * (0.5 - rng.rand(16))		# 为y添加噪声

这里涉及到几个比较陌生的函数
np.random.RandomState() 用于设置随机数种子，并返回随机数种子对象 rng；
通过固定的随机数种子调用 rng.rand()，可以使每次编译都生成相同的随机数；
np.random.rand(d1, d2, ..., dn) 用于生成随机分布在 [0,1] 的浮点形数组，其中数组的形状由 shape=(d0, d1, …, dn) 决定；
np.sort(5 * rng.rand(80,1), axis=0) 表示用随机数种子，生成随机布在[0,5]，的 80×1 的数组，并按竖直列进行排序；
ravel() 是降维函数，可以将 n 维数组变为 n-1 维数组，这里将 shape=(80, 1) 的二维数组降至一维；
之所以不直接生成一维的数组，是因为后续需要调用 fit() 方法来训练模型，其传入的X必须是二维及以上的数组；
此时，我们得到了 80×1 的 X，和 80 个标签的 y，它们按正弦函数一一对应，X作为数据 (data)，而y作为回归标签 (target)，但这个数据的分布是很准确的正弦函数，因此后续我们增加了噪声；
y[::5] += 3 * (0.5 - rng.rand(16)) 表示，y按步长 step=5 进行范围在 [-1.5, 1.5] 的随机数赋值破坏，以增加噪声；
数据准备完以后，数据的效果大概是下图所示这样（该图通过 matplotlib 散点图绘制出来，不再赘述）

（二）构建回归决策树： 为了便于比较，我们构建了两棵最大深度不同的回归树

regr1 = DecisionTreeRegressor(max_depth=2)  		# 构建最大深度为2的回归树
regr2 = DecisionTreeRegressor(max_depth=5)  		# 构建最大深度为5的回归树
regr1.fit(X_train, y_train)  						# 训练回归树1
regr2.fit(X_train, y_train)  						# 训练回归树2

X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]  	# 生成[0,5)，step=0.01的测试集，并升维为
y1 = regr1.predict(X_test)  						# 预测回归树1每个回归样本点得到的结果
y2 = regr2.predict(X_test)  						# 预测回归树2每个回归样本点得到的结果

[:, np.newaxis] 是一个升维切片，假设 array 是一个4元素数组 shape=(4, )，那么 array[:, np.newaxis] 可以把 array 转为 shape=(4, 1) 的二维数组；而 array[np.newaxis, :] 可以把 array 转为 shape=(1,4 ) 的二维数组
升维切片[:, np.newaxis] 和降维函数ravel() 的功能相反
因为测试集需要二维数组，因此我们需要升维，当然也可以使用 reshape() 方法升维

（三）绘制回归预测结果：

plt.figure()

# 绘制原数据集散点图，s散点的大小，edgecolor设置散点边框颜色，c设置散点颜色
plt.scatter(X, y, s=20, edgecolor="black", c="darkorange", label="data")
# 分别绘制测试集对回归树1和回归树2的测试结果
plt.plot(X_test, y1, color="cornflowerblue", label="max_depth=2", linewidth=2)
plt.plot(X_test, y2, color="yellowgreen", label="max_depth=5", linewidth=2)

# 添加标题
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")

# 显示图例，显示图像
plt.legend()
plt.show()

最终结果如图：（显然，max_depth=5 的回归树出现了过拟合）

3.2 交叉验证

交叉验证是用来观察模型的稳定性的一种方法，我们将数据划分为 n 份，依次使用其中一份作为测试集，剩下的 n-1 份作为训练集对模型进行训练，并计算模型的精确性来评估模型的平均准确程度

训练集和测试集的划分会干扰模型的结果，因此用交叉验证 n 次的结果求出的平均值，是评价模型的效果和泛化性的一个更好的指标

# 导入相关方法
from sklearn.model_selection import cross_val_score

cross_val_score(estimator, X, y=None…)

执行交叉验证

estimator 要进行交叉验证的对象，可以是 sklearn 中的各类机器学习算法模型
X 进行验证的数据集 (data)
y 在监督学习的情况下要尝试预测的目标变量 (target)，default=None，对于连续数据，其标签为数字
cv 确定交叉验证切分数，即交叉验证的次数，default=5
scoring string，如果为None，则使用估计器的默认评分器（如果可用），即指定使用 scoring=? 来评估算法模型
返回值 scores 数组，分别表示每一次验证的结果

在回归决策树中，我们使用 scoring = "neg_mean_squared_error"，即负的均方误差值

例如： 导入波士顿房价数据集 load_boston，建立回归决策树，并对回归树模型进行交叉验证

# 导入相关库
from sklearn.datasets import load_boston
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeRegressor

# 导入波士顿房价数据集
boston = load_boston()
# 建立回归决策树
regressor = DecisionTreeRegressor(random_state=0)
# 10倍交叉验证
scores = cross_val_score(regressor, boston.data, boston.target, cv=10,
				scoring="neg_mean_squared_error")
scores

四、案例：泰坦尼克号幸存者预测

（一）数据预处理： 包含 data.csv 和 test.csv，可以在 Kaggle泰坦尼克号的 Data 中下载（不怎么容易），Github 上应该也能下载到

# 导入相关库
import numpy as 
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt

# 读取data.csv文件
data = pd.read_csv("./data.csv", index_col = [])

发现数据中含有 NaN 的数据，并且姓名、船票等可能是对预测无益的数据，而 Cabin 有大量的数据缺失值，需要进行数据清洗

# 删除缺失值过多的列，和对预测无益数据，inplace=True决定覆盖原表
data.drop(["Cabin","Name","Ticket"], inplace=True, axis=1)

data["Age"] = data["Age"].fillna(data["Age"].mean())  	# 处理缺失值，采用平均值填补
data = data.dropna()  									# 删除含Nan的行，默认axis=0

其次，我们需要为 data["Sex"]：["male", "female"] 和 data["Embarked"]：['S', "C", "Q"] 编码成 {0, 1, 2} 的形式

# 将二分类变量转换为数值型变量
data["Sex"] = (data["Sex"]== "male").astype("int")  # 性别 0,1 编码，转为int类型

# 将三分类变量转换为数值型变量
labels = list(data["Embarked"].unique())  # 先将data["Embarked"]所有可能值
data["Embarked"] = data["Embarked"].apply(lambda x: labels.index(x))

data["Sex"]== "male" 可以得到一个布尔数组 [True, False, …, True]，然后使用 astype("int") 将 True 变成 1，将 False 变成 0
labels = list(data["Embarked"].unique()) 先将 data["Embarked"] 里的所有可能值变成一个列表并获取，即 ['S', 'C', 'Q']，在列表中，它们在 labels 中的索引分别是 0，1，2
利用的 labels 的索引，我们就可以通过 data["Embarked"].apply(lambda x: labels.index(x)) 实现编码
这里暂不讨论更深入的如：one-hot 热码

当然，到这里我们所使用的数据预处理手段很粗糙，以后在 “特征工程” 里会详细介绍数据集的预处理

接着，提取数据集

# 从data中取出数据集
X = data.iloc[:,data.columns != "Survived"]
y = data.iloc[:,data.columns == "Survived"]

# 数据集分组
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

因为 train_test_split() 会随机分组，因此 X_train, X_test, Y_train, Y_test 的行索引是乱序的，因此我们需要修正行索引

#修正测试集和训练集的索引
for i in [X_train, X_test, y_train, y_test]:
    i.index = range(i.shape[0])

（二）建模：

老规矩，我们利用循环来寻找最佳的 max_depth

train_scores = []
test_scores = []
for i in range(10):
    clf = DecisionTreeClassifier(random_state=25,
                                 max_depth=i+1,
                                 criterion="entropy")
    clf = clf.fit(X_train, y_train)
    train_score = clf.score(X_train, y_train)  				# 模型在训练集上的效果
    test_score = cross_val_score(clf, X, y, cv=10).mean()  	# 模型在测试集上面的效果
    train_scores.append(train_score)  			# 合并数据
    test_scores.append(test_score)  			# 合并数据

# 画图
plt.plot(range(1,11), train_scores, color="r", label="train_scores")
plt.plot(range(1,11), test_scores, color="b", label="test_scores")
plt.xticks(range(1,11))
plt.legend()
plt.show()

发现模型效果并不理想，max_depth 大概取 3 这样子，最大深度太深了，模型就过拟合了

（三）自动化调参：网格搜索： 网格搜索可以同时调整多个参数，可以实现模型的多维度优化

GS = GridSearchCV(estimator, param_grid, …)

详尽搜索估计器的指定参数值，网格搜索
通过在参数网格上进行交叉验证的网格搜索，优化用于应用这些方法的估计器的参数
同时实现 score、cross_val_score 两个功能

estimator 算法模型对象，可以是 sklearn 里的各种算法模型
param_grid 以需要调参的参数名称作为键，以参数想要尝试的值组成的列表作为值的字典，如：{"max_depth": [1, 2, 3, 4, 5]}
scoring 评分器，即评分依据
cv 执行交叉验证策略的次数

GS.fit(X, y)

必须对 GridSearchCV() 返回的 GS 对象进行训练，它的运行时间会比较长
因为是枚举，因此运行的时间会比较长，因此在 param_grid 中尽量缩小参数的可选范围；
此外，该方法还有一个缺点，就是被指定了的参数，它就一定会使用那个范围里的参数，而不会选择默认值是否最优

GS.best_score_

best_estimator 的平均交叉验证得分：float

GS.best_params_

最优结果情况下的参数选择

# 参数预值字典
parameters = {
     "splitter": ["best", "random"],  						# 最优策略，随机最优策略
			  "criterion": ["gini", "entropy"],  					# 基尼指数，信息增益
			  "max_depth": [*range(1, 8)],  						# [1,8)
			  "min_samples_leaf": [*range(1, 50, 5)],  				# 在[1,50), step=5中顺序取数
			  "min_impurity_decrease": [*np.linspace(0, 0.5, 20)]}  # 在0~0.5中，等步长地取20个数（等差数列）

clf = DecisionTreeClassifier(random_state=25)
GS = GridSearchCV(clf, parameters, cv=10)
GS.fit(X_train, y_train)
GS.best_params_
GS.best_score_

不过似乎模型的效果还是很一般，Kaggle 上这个训练集的预测难度确实比较大

参考资料：
[1]机器学习-第七章：决策树.pdf，黄海广
[2]机器学习导论
[3]bilibili-2020机器学习全集，菜菜
[4]sklearn中文社区
[5]CART算法的原理以及实现

你可能感兴趣的:(Python机器学习,python,决策树,sklearn,机器学习)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

Python机器学习（二）：决策树(Decision Tree-DTs)

Python机器学习（二）：决策树(Decision Tree-DTs)

目录：

一、什么是决策树

1.基本概念

2.决策树算法的核心问题

3.决策树的优缺点

二、决策树的原理

1.ID3 算法

1.1 ID3 算法步骤

1.2 信息熵、条件熵和信息增益

2.C4.5 算法

2.1 信息增益率

2.2 C4.5 剪枝

2.3 C4.5 算法的缺点

3.CART 算法

3.1 CART 算法介绍

3.2 分类问题——基尼指数(Gini)

3.3 回归问题——均方差

3.4 CART 剪枝步骤

4.决策树算法差异总结

三、决策树的sklearn实现

1.sklearn中的决策树类

2.分类决策树

2.1 构建一棵分类决策树

2.2 可视化

2.3 剪枝参数

2.4 确定最优的剪枝参数

3.回归决策树

3.1 构建一棵回归决策树

3.2 交叉验证

四、案例：泰坦尼克号幸存者预测

你可能感兴趣的:(Python机器学习,python,决策树,sklearn,机器学习)