Sundm@lhq

《机器学习》周志华(西瓜书)学习笔记第四章决策树

《机器学习》周志华(西瓜书)学习笔记

总目录

世上只有一种投资是只赚不赔的，那就是学习。
当你的的能力还驾驭不了你的目标时，
就应该沉下心来历练；
当你的才华撑不起你的野心时，
就应该静下心来学习

第四章决策树(decision tree)

4.1 基本流程

决策树(Decison Tree)是基于树结构决策的机器学习算法。

决策树采用分而治之(Divide and Conquer)策略，以一系列的子决策决定分类结果。

一般的，一颗决策树包含一个根结点、若干个子结点和若干个叶结点。根结点包含样本全集；子结点对应属性划分，包含划分样本；叶结点对应决策结果，包含决策样本。从根结点到每个叶结点的路径对应一个判定测试序列。

学习目的：决策树学习的目的是为了产生一颗泛化能力强，即处理未见示例能力强的决策树。

显然，决策树的生成是一个递归过程。其核心是最优划分属性的选择，在决策树基本算法中，有以下三种情形导致递归返回：

当前结点包含的样本全属于同一类别，无需划分。
所有样本在所有属性值相同，或属性集为空，无法划分，该结点类别设定为所含样本最多的类别。
当前结点包含的样本集合为空，不能划分。

4.2 划分选择

一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”(purity)越来越高

4.2.1 信息增益

“信息熵”（information entropy）：度量样本集合纯度最常用的一种指标
假定当前样本集合D中第k类样本所占的比例 $p_{k} (k=1,2, \dots,|\mathcal{Y}|)$ ，则D的信息熵定义为:

$∑_{k=1}^{|\mathcal{Y}|}{p_k}\log_2{p_k}$

Ent(D)值越小，则D的纯度越高

计算信息熵约定：若p=0，则 $p\log_2p=0$

Ent(D)最小值为0，最大值为 $log_2{|\mathcal{Y}|}$

假定离散属性a有 $V$ 个可能取值 $\left\{a^{1}, a^{2}, \ldots, a^{V}\right\}$ ，若使用a来对样本集 $D$ 划分，则会产生 $V$ 个分支结点，其中第 $\mathcal{v}$ 个分支结点包含了D中所有在属性a上取值为 $a^{\mathcal{v}}$ 的样本，记为 $D^{\mathcal{v}}$ .再考虑到不同的分支结点所包含的样本数不同，给分支结点赋予权重 $\frac{D^{\mathcal{v}}}{D}$ ,即样本数越多的分支结点的影响越大，于是可计算出用属性a 对样本集D 进行划分所获得的“信息增益”(information gain):
$Gain(D,a)=Ent(D)−\sum_{\mathcal{v}=1}^{V} {\frac{|D^{\mathcal{v}}|}{|D|}} {Ent(D^{\mathcal{v}})}$

一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的的“纯度提升”越大

因此，我们可以根据信息增益来选择结点，一般选择信息增益最大的属性作为划分结点
即：
$a_*={arg\max}_{a\epsilon{A}}Gain(D,a)$
著名的ID3决策树学习算法就是以信息增益为准则来选择划分属性。

4.2.2 增益率

实际上，由于信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，著名的C4.5决策树算法不直接使用信息增益，而是使用“增益率”来选择最优划分属性。增益率定义为：
$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$
其中：
$IV(a)=-\sum_{\mathcal{v}=1}^{V} \frac{|D^{\mathcal{v}}|}{|D|} \log_2 \frac{|D^{\mathcal{v}}|}{|D|}$

称为属性a的“固有值”(intrinsic value).

须注意的是，由于增益率准则对可取值数目较少的属性有所偏好，因此C4.5算法采用先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的方法来选择最优划分属性

4.2.3 基尼系数

CART(Classification and Regression)决策树使用基尼指数(Gini Index)来选择划分属性

数据集D的纯度可用基尼值来度量：
$Gini(D)=\sum_{k=1}^{\mathcal{Y}} {\sum_{k^{'}{\neq}k}} {p_k}{p_{k^{'}}}$
$=1-\sum_{k=1}^{|\mathcal{Y}|}{p_k^2}$

直观来说，Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此，Gini(D)越小,则数据集D的纯度越高。

属性a的基尼指数定义为：
$Gini\_index(D,a)=\sum_{\mathcal{v}=1}^{V} {\frac{|D^{\mathcal{v}}|}{|D|}} {Gini(D^{\mathcal{v}})}$
于是，我们在划分属性集合A中，选择那个使得划分后基尼指数最小的属性作为最优划分属性，即：
$a_{*}={arg\min}_{a{\epsilon}A} Gini\_index(D,a)$

信息熵代表了混乱程度。信息熵越小，信息增益越大，纯度越大

基尼值表示了类别不一致的概率，基尼值越小，纯度越大

4.3 剪枝处理

“剪枝”(Pruning)是决策树学习算法用于防止模型过拟合(Overfitting)的主要手段。

决策树剪枝的基本策略有"预剪枝"(prepruning)和"后剪枝"(post-pruning)。

4.3.1 预剪枝

预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点不能带来泛化能力的提升，则停止划分并将该结点标记为叶结点。

仅有一层划分的决策树，称为“决策树桩(decision stump)”

预剪枝基于贪心本质，预划分当前结点，减少了决策树的分支

优点：

显著降低了过拟合的风险
显著减少了决策树的训练时间开销和测试时间开销

缺点：

数据集可能存在当前划分验证集精度低，但后续划分显著提高的情形，无法得到最优决策树；
给预剪枝决策树带来了欠拟合的风险；

后剪枝

后剪枝就是先从训练集中生成一颗完整的决策树，然后自下向上对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化能力的提升，则将该子树替换为叶结点。

优点：

保留了更多分支，泛化性能增强
降低了欠拟合的风险

缺点：

先从训练集生成一颗完整的决策树，训练时间开销和测试时间开销大

4.4 连续与缺失值

4.4.1 连续值处理

到目前为止我们仅讨论了基于离散属性来生成决策树。但是在现实学习任务中常会遇到连续属性，由于连续属性的可取数目不再有限，因此不能根据连续属性的可取值来对结点进行划分。此时，连续属性离散化技术派上用场。最简单的策略是采用二分法(bi-partition)对连续属性进行处理，这正是C4.5算法中采用的机制。

给定样本集D和属性a,假定在D上出现了n个不同的取值，将这些值从小到大进行排序，记为
$\left\{a^{1}, a^{2}, \ldots, a^{n}\right\}$ ，基于划分点t可将D分为子集 $D_t^-$ 和 $D_t^+$ ,其中， $D_t^-$ 包含那些在属性a取值上不大于t的样本，而 $D_t^+$ 则包含那些在属性a上大于t的样本。

显然，对相邻的属性取值 $a^i$ 与 $a^{i+1}$ 来说，t在区间 $a^i,a^{i+1}]$ 中取任意值所产生的划分结果相同。因此，对于连续属性a，我们可考察包含n-1个元素的候选划分点集合：
$T_a=\left\{\frac{a^i+a^{i+1}}{2} |{1{\leq}i{\leq}{n-1}}\right\}$

计算纯度的方式跟之前一致，但是将中位点值替换为划分属性值

4.4.2 缺失值处理

现实任务中常会遇到不完整样本，即样本的某些属性值缺失

考虑利用有缺失属性值的不完整样本来进行学习，需解决以下两个问题：

如何在属性值缺失的情况下进行划分属性选择
给定划分属性，若样本在该属性的值缺失，如何对该样本进行划分

问题一
对于训练集D和属性a,令 $\tilde{D}$ 表示D中在属性a上没有缺失值的样本子集，使用 $\tilde{D}$ 来进行划分属性选择，假定属性a有V个可取值 $\{a^1,a^2,\cdots,a^V\}$ ,则：

$\tilde{D^{\mathcal{v}}}$ 表示 $\tilde{D}$ 中在属性a上取值为 $a^{\mathcal{v}}$ 的样本子集（共V个值）
$\tilde{D_{\mathcal{k}}}$ 表示 $\tilde{D}$ 中属于第K类的样本子集（共 $\mathcal{Y}$ 类)

显然有
$\tilde{D}= \bigcup_{k=1}^{\mathcal{Y}}\tilde{D_{\mathcal{k}}}= \bigcup_{\mathcal{v}=1}^{\mathcal{V}}\tilde{D^{\mathcal{v}}}$
假定我们为每个样本 $x$ 赋予一个权重 $w_x$ ,并定义：
$\rho=\frac{\sum_{x{\epsilon}{\tilde{D}}}w_x}{\sum_{x{\epsilon}{D}}w_x},$
$\tilde{\mathcal{p}}_k=\frac{\sum_{x{\epsilon}{\tilde{D}}_k}w_x}{\sum_{x{\epsilon}{\tilde{D}}}w_x} (1{\leq}k{\leq}{|\mathcal{Y}|}),$
$\tilde{\mathcal{r}}_{\mathcal{v}}=\frac{\sum_{x{\epsilon}{\tilde{D}}^{\mathcal{v}}}w_x}{\sum_{x{\epsilon}{\tilde{D}}}w_x} (1{\leq}{v}{\leq}{V})$

直观的看，
对属性 $a,\rho$ 表示无缺失值样本所占的比例；

$\tilde{p}_{k}$ 表示无缺失值样本中第k类所占的比例；

$\tilde{r}_{v}$ 表示无缺失值样本中在属性a上取值 $a^{v}$ 的样本所占的比例；

为权重值，默认为1，在属性缺失的样本会同时进入所有分支，并将权重调整为各分支占的比重。

基于上述定义，我们可将信息增益的计算式推广为：

$Gain(D,a)={\rho}{\times}{Gain(\tilde{D},a)}$
$=\rho\times(Ent(\tilde{D})-\sum_{v=1}^V\tilde{r}_vEnt(\tilde{D}^v))$
其中：
$Ent(\tilde{D})=-\sum_{k=1}^{|\mathcal{Y}|}{\tilde{p}_k}{log_2}{\tilde{p}_k}$

问题二

若样本 $x$ 在划分属性 $a$ 上的取值已知，则将 $x$ 划入与其取值对应的子结点，且样本权值在子结点中保持为 $w_x$ 。若样本 $x$ 在划分属性 $a$ 上的取值未知，则将 $x$ 同时划入所有结点，且样本权值在与属性值 $a^v$ 对应的子结点中调整为 $\tilde{r}_v{\cdot}w_x$ ;直观的看，这是让同一个样本以不同的概率划入到不同的子结点中去。

4.5 多变量决策树

将样本集合对应多维空间，每个属性对应一个维度，分类就是在不同类空间寻找边界。单变量决策树的分类边界是由若干个与坐标轴平行的分段组成。

若能使用斜的划分边界，则决策树模型将大为简化，
“多变量决策树“(multivariate decision tree)就是能实现这样的“斜划分”，甚至更复杂划分的决策树

在多变量决策树的学习过程中，不是为每个非叶结点寻找一个最优划分属性，而是试图建立一个合适的线性分类器。

你可能感兴趣的:(机器学习,西瓜书学习笔记)

Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
Python 4.0新特性解析：性能优化与语法升级知识产权13937636601 计算机 python 性能优化开发语言
本文针对Python4.0的核心升级展开系统性分析，从性能优化与语法革新两个维度揭示其技术突破。首先解析新型解释器架构对运算效率的提升路径，其次探讨模式匹配、异步编程简化和类型系统强化等语法特性，最后结合机器学习与高并发场景验证新版本的实践价值。研究发现，Python4.0通过JIT编译器与内存管理重构实现3倍以上性能跃升，同时静态类型推导的完善显著提升大型项目维护效率，标志着Python从"胶水
Python,C++,go语言开发社会犯罪人群回归社会跟踪与辅助管理APP Geeker-2025 python c++golang
开发一款用于**社会犯罪人群回归社会跟踪与辅助管理**的App，结合Python、C++和Go语言的优势，可以实现高效的数据处理、实时的跟踪监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python+Go）-**编程语言**：-**Python**：用于数据处理、机器学习（如风险评估、行为预测）、脚本编写等。-**Go**：用
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
【免费下载】探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破
探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破在这个数字化时代，人工智能正逐步改变我们的生活，其中深度学习在农业领域的应用尤其引人注目。PlantVillage-Dataset是一个开放源代码的项目，它提供了一个庞大的植物病害识别数据集，旨在帮助开发人员和研究者利用机器学习技术改善农作物健康状况的监测。本文将深入探讨该项目的技术细节、应用价值及其独特之处。项目简
Python 的 GIL 时代即将终结，迈向真正的多线程时代技术狂潮AI Python开发实战 AI编程实战 AI应用实战开发语言 GIL Python
Python功能强大、灵活且对程序员友好，广泛应用于从Web开发到机器学习的各个领域。根据引用次数最多的两项指标，Python甚至超越了Java和C等语言，成为最流行的编程语言。经过多年的流行，Python似乎势不可挡。但Python作为一种编程语言的未来发展至少面临一个重大障碍。它被称为GIL，即全局解释器锁，几十年来，Python开发人员一直试图将其从Python的默认实现中删除。虽然GIL在
如何从零开始入行机器学习
在当今的科技浪潮中，机器学习无疑是最耀眼的明星之一。它不仅引领了人工智能的发展，还在各个行业中催生了大量的创新和变革。对于那些对技术充满热情、渴望在这个领域有所作为的人来说，“如何从零开始入行机器学习”成为了最热门的话题之一。这不仅仅是技术上的挑战，更是一个职业生涯的新起点。想象一下，在未来的工作中，你能够开发出自动识别图像的应用程序，或者设计一个可以预测市场趋势的智能系统，这一切都源于你现在迈出
如何评价开课吧机器学习特训营这个课程？ cda2024 机器学习人工智能
开场：点明主题，吸引眼球在当今数据驱动的时代，机器学习（MachineLearning）已经成为各个行业不可或缺的技术之一。无论是金融、医疗、制造还是零售，机器学习的应用都为这些领域带来了巨大的变革。面对这样的趋势，许多人都希望能够掌握这门技术，从而提升自己的职业竞争力。那么，当我们谈论“如何评价开课吧机器学习特训营这个课程”时，实际上是在探讨一个非常具体且重要的问题：对于那些希望进入或深入机器学
Anaconda（AI生成测试） harrio_ python
技术文章大纲：Anaconda插件开发挑战赛引言Anaconda作为数据科学与机器学习的核心工具，其插件生态系统的扩展性为开发者提供了广阔的创新空间。插件开发挑战赛旨在激励开发者探索Anaconda的潜力，解决实际场景中的技术痛点。以下为技术文章的核心框架。Anaconda插件开发的核心价值插件开发能够增强Anaconda的功能模块化，例如集成新的编程语言支持、优化包管理流程或扩展可视化工具。通过
Python与机器学习库Scikit-learn进阶 master_chenchengg python python Python python开发 IT
Python与机器学习库Scikit-learn进阶Scikit-learn进阶之旅：从新手到高手的必经之路为什么选择Scikit-learn？安装与环境设置特征工程的艺术：打造更强大的预测模型数据清洗特征构造模型调优秘籍：网格搜索与交叉验证的最佳实践网格搜索交叉验证集成学习的魅力：提升模型性能的组合拳随机森林梯度提升机堆叠实战案例解析：使用Scikit-learn解决真实世界问题数据准备模型训练
表征学习：机器认知世界的核心能力与前沿突破大千AI助手人工智能 #OTHER Python 学习人工智能机器学习神经网络表征学习 RL 特征工程
一、定义与背景：从特征工程到自动化学习表征学习（RepresentationLearning），又称特征学习（FeatureLearning），是机器学习的核心技术领域，其核心目标是通过算法自动学习数据的内在特征表示，将复杂多变的原始数据（如图像、文本、语音）转化为低维、富含语义信息的向量形式，从而提升下游任务（如分类、回归、聚类）的效率和精度。与传统依赖人工设计特征的特征工程（FeatureEn
踏上人工智能之旅（一）-----机器学习之knn算法 Sunhen_Qiletian 人工智能机器学习算法 python
目录一、机器学习是什么（1）概述（2）三种类型1.监督学习（SupervisedLearning）：2.无监督学习（UnsupervisedLearning）：3.强化学习（ReinforcementLearning）：二、KNN算法的基本原理：1.距离度量：2.K值的选择：3.投票机制和投票：三、Python实现KNN算法1.导入必要的库和数据：2.提取特征和标签：3.导入KNN分类器并训练模型
【Python】pandas.cut()函数的用法
pandas.cut()函数是一个非常有用的工具，用于将数值型数据按照指定的分箱或区间进行分割，从而将连续的数值变量转换为离散的类别变量。这在数据分析和机器学习的特征工程中尤其有用，因为它可以帮助揭示不同区间内的数据分布特征，或者简化模型的输入。基本用法pandas.cut()的基本语法如下：pandas.cut(x,bins,right=True,labels=None,retbins=Fals
以AI人工智能为核心，发展空间智能 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
以AI人工智能为核心，发展空间智能关键词：人工智能、空间智能、智能系统、机器学习、计算机视觉、物联网、自动化技术摘要：本文围绕"以AI人工智能为核心发展空间智能"这一主题，系统解析空间智能的技术架构与实现路径。通过揭示AI与空间智能的核心关联，深入探讨机器学习、计算机视觉、数字孪生等关键技术如何赋能空间数据的感知、处理与决策。结合智能建筑、智慧城市等实际场景，展示从算法原理到工程落地的完整技术链条
Python金融分析：情感分析在量化价值投资中的完整实现 AI量化价值投资入门到精通 python 金融开发语言 ai
Python金融分析：情感分析在量化价值投资中的完整实现关键词：Python金融分析、情感分析、量化投资、价值投资、自然语言处理、机器学习、金融文本挖掘摘要：本文系统解析如何将情感分析技术深度整合到量化价值投资体系中，通过Python实现从金融文本数据采集、预处理、情感建模到策略回测的完整流程。详细阐述基于规则引擎、机器学习和深度学习的多维度情感分析方法，结合财务指标构建复合投资模型，并通过实战案
通用图片 OCR 到 Word API 数据接口 2301_78772565 ocr
通用图片OCR到WordAPI数据接口高可用图像识别引擎，基于机器学习，超精准识别率。1.产品功能通用的识别接口，支持多种图片格式；支持中英文字符混合识别；支持Base64以及网络地址传参；基于机器学习不断提高的识别率；输出的Word文件永久存储；数据持续更新与维护；全接口支持HTTPS（TLSv1.0/v1.1/v1.2/v1.3）；全面兼容AppleATS；全国多节点CDN部署；接口极速响应，
机器学习模型评估：交叉验证、混淆矩阵、ROC曲线及其在医学影像领域的应用猿享天开机器学习矩阵人工智能 DICOM医学影像模型评估
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
深入详解：决策树在医学影像分割特征选择中的应用与实现猿享天开决策树算法机器学习人工智能
深入详解：决策树在医学影像分割特征选择中的应用与实现决策树（DecisionTree）作为一种经典的机器学习算法，以其简单、直观和可解释性强的特点，在医学影像分割的特征选择中扮演了重要角色。医学影像分割（如分割脑肿瘤、肝脏、肺结节等）需要从高维影像数据中提取关键特征，以提升分割模型的精度和效率。决策树通过构建树形结构，筛选对分割任务最重要的特征，降低数据维度，同时提供可解释的规则。本文将从原理、实
机器学习概述炀水机器学习人工智能
一、机器学习算法与流程（一）、机器学习的主要流程：1.明确分析目标，2.数据收集，3.数据预处理，4.建模分析，5.结果评估，6.部署使用以及学习更新。1.明确分析目标：客观反映用户需求，通过对各类人群的深入分析，为相关部门制订资费、服务、市场策略提供基础。2.数据收集：收集相关的数据，充足、全面的高质量数据是机器学习的基础。3.数据预处理：数据可能存在着噪声、不一致、异常、个人隐私保护等各类问题
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他