安替-AnTi

机器学习分类算法(九)-LightGBM

之前在讲xgboost的时候，详细介绍了陈天奇等人于2014年发布的XGBoost的内在原理，同时阐述了其特有的几大优点。然而时代变化之迅速，新技术如春笋般应运而生，与日俱进。继xgboost之后，2016年微软进一步发布了GBST的另一个实现：lightgbm。据悉，与xgboost相比，在相同的运行时间下能够得到更好的预测性能。同时，在multi-class、classification、click prediction和排序(lerning to rank)都有很好的效果。本文将基于lightgbm的原始paper，对其原理进行归纳总结。

前言

为了确保文章的连续性，读者需对Boosting系列有一定的理解，在阅读本文核心内容之前，还读者预先在心里回答下下面几个问题：

XGBoost的目标函数表达式？
$j^{(t)}=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(t)}\right)+\sum_{i=1}^{t} \Omega\left(f_{i}\right)$
XGBoost在GBDT的基础上做了哪些优化？
- 对应上文的XGBoost算法的优点
XGBoost的exact greedy Algorithm for split finding是什么？
XGBoost寻找分裂点的增益计算方法？
XGBoost的近似算法原理？
解释下Weighted Quantile Sketch原理？

如果对上面的问题模棱两可的，可前往上一篇文章，回顾一下。接下来将会针对XGBoost的不足进一步探讨lightGBM模型，相对于GBDT，lightGBM的精度与它相差不大，但是速度可以提升20倍。By the way，在学习lightGBM的时候，可以思考下下面几个问题（本文不会直接给出结论，读完之后，读者自然就明白了）：

1.Adaboost、GBDT、XGBoost的样本梯度都是什么？
2.XGBoost的不足之处在哪里（lightGBM因何诞生，解决了什么问题）？
3.XGBoost的近似算法与lightGBM的histogram-based方法的区别？
4.什么是lightGBM？
5.lightGBM与XGBoost的结构有什么区别？

不管是XGBoost还是lightGBM，模型的优化方向上必不可少的就是决策树的分裂上。下面，将重点介绍lightGBM算法在寻找最佳切分点上所做出的努力。

LightGBM

LigthGBM是一款常用的GBDT工具包，速度比XGBoost快，精度也还可以。它的设计理念是：

单个机器在不牺牲速度的情况下，尽可能使用上更多的数据
多机并行的时候，通信的代价尽可能地低，并且在计算上可以做到线性加速。

所以其使用分布式的GBDT，选择了基于直方图的决策树算法。

寻找最佳分裂点

lightGBM引入的核心思想包括两个方面：

1.Histogram: 基于特征的数值进行分bin，然后基于bin的值寻找最佳分裂的bin值。
2.GOSS(Gradient based One Side Sampling): 移除小梯度样本，使用余留的样本做增益计算；
3.EFB(exclusive Feature Bundling)：bundle不会同时为零的特征（互斥），达到减少特征数量的目的。

Histogram分桶策略

GBDT是以决策树为基学习器的ensemble模型，在每次迭代中，GBDT都通过拟合负梯度来学习决策树，其中代价最大最耗时的就是寻找最佳切分点过程。

一种方法是采用了预排序的算法，然后枚举所有可能的切分点，再寻找到增益最大的分裂点。比如Xgboost。

XGBoost中的Exact greedy算法：

对每个特征都按照特征值进行排序
在每个排好序的特征都寻找最优切分点
用最优切分点进行切分

优点是比较精确，缺点是空间消耗比较大，时间开销大和对内存不友好，使用直方图算法进行划分点的查找可以克服这些缺点。

另一中方法是基于histogram的算法。

直方图算法(Histogram algorithm)把连续的浮点特征值离散化为k个整数(也就是分桶bins的思想)，比如[0,0.1)—> 0,[0.1,0.3)—>1.并根据特征所在的bin对其进行梯度累加和个数统计，然后根据直方图，寻找最优的切分点。

histogram算法并不是在预排序的特征值当中寻找最佳切分点，而是将连续的特征值进行离散化bin并放入不同的bucket，在训练的时候基于这些bin来构建特征histogram。这种做法效率更高，速度更快。

如Algorithm 1所示，构建histogram的时间复杂度为O(#data × #feature)，寻找最佳分裂点的时间复杂度O(#bin × #feature)。

直方图算法-如何分桶

如何分桶bins？数值型特征和类别特征采用的方法是不同

数值型特征
- 对特征值去重后进行排序(从大到小)，并统计每个值的counts
- 取max_bin(设置的超参数，最大有几个分桶)和distinct_value.size()（数据去重后值的类别）中的较小值作为bins_num（分桶个数）
- 计算bins中的平均样本个数mean_bin_size,若某个distinct_value的count大于mean_bin_size,则该特征值作为bins的上界，小于该特征值的第一个distinct value作为下界；若某个distinct_value的count小于mean_bin_size，则要进行累计后再分组。
类别性特征
- 首先对特征取值按出现的次数排序(从大到小)
- 取前min(max_bin,distinct_values_int.size())中的每个特征做第3步(忽略一些出现次数很少的特征取值)
- 用bin_2_categorical_bin_2_categorical_(vector类型)和categorical_2_bin_categorical_2_bin_(unordered_map类型)将特征取值和bin一一对应起来，这样就可以方便进行两者之间的转换了。

直方图算法

如何构建直方图

给定一个特征值，我们可以转化为对应的bin了，就要构建直方图了，直方图中累加了一阶梯度和二阶梯度，并统计了取值的个数。

直方图作差：

一个叶子节点的直方图可以由它的父亲节点的直方图与其兄弟的直方图做差得到。使用这个方法，构建完一个叶子节点的直方图后，就可以用较小的代价得到兄弟节点的直方图，相当于速度提升了一倍。

寻找最优的切分点：

遍历所有bin
以当前的bin作为分割点，累加左边的bins至当前bin的梯度和 $S_{L}$ 及样本数量 $n_L$ ,并利用直方图作差求得右边的梯度和样本数量。
带入公式计算增益loss
在遍历过程中取得最大的增益，以此时的特征和bin的特征值作为分裂的特征及取值。

其中 $S_{R}$ 表示右节点， $S_{L}$ 表示左节点， $S_{P}$ 表示父亲节点

直方图算法的优点

减少内存占用
缓存命中率提高，直方图中梯度存放是连续的
计算效率提高，相对于XGBoost中预排许每个特征都要遍历数据，复杂度为O(#feature * #data)，而直方图算法只需遍历每个特征的直方图即可，复杂度为O(#feature * #bins)
在进行数据并行时，可大幅降低通信代价

直方图算法改进

直方图算法仍有优化的空间，建立直方图的复杂度为O(#feature * #data),如果能降低特征数或者降低样本数，训练的时间会大大减少。假如特征存在冗余时，可以使用PCA 等算法进行降维，但特征通常是精心设计的，去除它们中的任何一个可能会影响训练精度。因此LightGbm提出了GOSS算法和EFB算法。

GOSS算法

样本的梯度越小，则样本的训练误差越小，表示样本已经训练的很好了。最直接的做法就是丢掉这部分样本，然而直接扔掉会影响数据的分布，因此lightGBM采用了one-side 采样的方式来适配：GOSS(Gradient-based One-Side Sampleing)采样策略，它保留了所有的大梯度样本，对小梯度样本进行随机采样，来划分最优节点。

同时为了保证分布的一致性，在计算信息增益的时候，将采样的小梯度样本乘以一个常量： $\frac{1-a}{b}$ ， $a$ 表示Top a×100%的大梯度样本比例值， $b$ 表示小梯度样本的采样比值（很多文章里面理解成从省下的小梯度样本中采样b%的比例，其实是有误解的，这里的百分比是相对于全部样本而言的，即b%×N）。

例如：100个样本中，大梯度样本有20个，小梯度样本80个，小梯度样本量是大梯度样本数据量的4倍，则大样本采样比率 $a$ 等于0.2，假设小梯度样本的采样率为30%，则 $b$ =0.3，那么小梯度样本的采样数目等于 $b$ ×100=30个，为了保证采样前后样本的分布保持一致，最后小梯度样本采样得到的数据在计算梯度时需要乘以 $\frac{1-a}{b}=\frac{1-0.2}{0.3}=\frac{8}{3}$ (解释一下，乘以1− $a$ 是因为大梯度样本采样的整体是整个样本集N，小梯度样本采样的候选样本集为 $(1 - a) N$ ，除以 $b$ 是因为采样导致小梯度样本的整体分布减少，为此需要将权重放大1/b倍)。整个过程如下图Algorithm 2所示。

通过这个过程，减少了我们在寻找最优分割点时候的计算量。

原始直方图算法下，在第 $j$ 个特征，值为 $d$ 处进行分裂带来的增益可以定义为：

$V_{j \mid O}(d)=\frac{1}{n_{O}}\left(\frac{\left(\sum_{x_{i} \in O_{x_{i}, S d}} g_{i}\right)^{2}}{n_{l \mid 0}^{j}(d)}+\frac{\left(\sum_{x_{i} \in O_{x_{i}>d}} g_{i}\right)^{2}}{n_{r \mid O}^{j}(d)}\right)$	(1)

原始计算是拿梯度的平方/子节点的个数

其中 $O$ 为在决策树待分裂节点的训练集， $n_{o}=\sum I\left(x_{i} \in O\right), n_{l \mid O}^{j}(d)=\sum I\left[x_{i} \in O: x_{i j} \leq d\right]$ 并且 $n_{r \mid O}^{j}(d)=\sum I\left[x_{i} \in O: x_{i j}>d\right]$ .

采用GOSS之后，在第 $j$ 个特征，值为 $d$ 处进行分裂带来的增益可以定义为：

$V_{j \mid O}(d)=\frac{1}{n_{O}}\left(\frac{\left(\sum_{x_{i} \in A_{l}} g_{i}+\frac{1-a}{b} \sum_{x_{i} \in B_{l}} g_{i}\right)^{2}}{n_{l}^{j}(d)}+\frac{\left(\sum_{x_{i} \in A_{r}} g_{i}+\frac{1-a}{b} \sum_{x_{i} \in B_{l}} g_{r}\right)^{2}}{n_{r}^{j}(d)}\right)$	(2)

其中， $A_{l}=x_{i} \in A: x_{i j} \leq d, A_{r}=x_{i} \in A: x_{i j}>d, B_{l}=x_{i} \in B: x_{i j} \leq d, B_{r}=x_{i} \in B: x_{i j}>d$

计算量大大减少，本来是全部样本，现在只需要
算 $A_{l}$ + $B_{l}$ 的计算量

其中，A表示大梯度样本集，而B表示小梯度样本中随机采样的结果。

接下来我们来看；另一种算法

EFB算法

高维数据通常是非常稀疏的，而且很多特征是互斥的（即两个或多个特征列不会同时为0），lightGBM对这类数据采用了名为EFB（exclusive feature bundling）的优化策略，将这些互斥特征进行合并，能够合并的特征为一个#bundle。通过这种方式，可以将特征的维度降下来，相应的，构建histogram所耗费的时间复杂度也从O(#data × #feature)变为O(#data × #bundle)，其中#feature << #bundle。方法说起来虽然简单，但是实现起来将面临两大难点：

哪些特征可以bundle在一起—Greedy bundle
如何构建bundle，实现特征降维—Merge Exclusive Features

针对这两个问题，paper里面提到了两种算法：Greedy Bundling和Merge Exclusive feature。

对于第一个问题，将特征划分为最少数量的Bundle本质上属于NP-hard problem(非确定性多项式)。

Greedy bundled的原理与图着色相同，给定一个图G，定点为V，表示特征，边为E，表示特征之间的互斥关系，接着采用贪心算法对图进行着色，以此来生成bundle。

不过论文中指出，对于特征值的互斥在一定程度上是可以容忍的，具体的算法流程如Algorithm 3所示。

1.首先构建一张带权重的图，权重为特征间的总冲突数；
2.对特征按照在图内的度进行降序排序；
3.检查排好序的特征，并将其划分到一个冲突较小的bundle里，如果没有就创建一个bundle。

该算法复杂度为O(#feature^2),采用这种方法对于特征数目不大的数据，还算OK，但是对于超大规模的特征,效率不高，这时可以不建立图，采用特征中非零值的个数作为排序的值，因为非零值越多通常冲突就越大。
其中 $F$ 表示特征的个数， $k$ 表示互斥的个数

对于第二个问题：应该如何如何构建bundle。

MEF(Merge Exclusive Features)将bundle中的特征合并为新的特征，合并的关键在于构建前的特征的值在构建后的bundle中能够识别。由于基于histogram的方法存储的是离散的bin而不是连续的数值，因此可以通过添加偏移的方法将不同特征的bin值设定为不同的区间。

例如，特征A的bin值为[0,10)，特征B的bin值为[0,20)，要想将两个特征bin合并，我们可以将特征B的特征bin的值加上10，其取值区间将变为[0,30)。整个方法描述如下图所示。

leaf-wises 树的生长策略

另外，在树的生成方式上，lightGBM与XGBoost也是有区别的。

XGBoost中决策树的生长策略是level-wise，按层生长，同一层的所有节点都做分裂，最后剪枝，它不加区分的对待同一层的叶子，带来了很多没必要的开销，因为实际上很多叶子的分裂增益较低，没必要进行搜索和分裂。

对比之下，lightGBM的生长策略是leaf-wise，维持的是一颗平衡树，leaf-wise策略以降低模型损失最大化为目的，对当前所有叶子节点中切分增益最大的leaf节点进行切分。优点是生长出来的树一定是最优的。不过leaf-wise存在一个弊端，就是最后会得到一颗非常深的决策树，为了防止过拟合，可以在模型参数中设置决策树的深度。

系统设计

这里我们主要介绍下LightGBM中的并行计算优化方法，在本小节中，工作的节点称为worker，LightGBM具有支持高效并行的特点，原生支持并行学习，目前支持：

特征并行
数据并行
Voting并行(数据并行的一种)

特征并行是并行化决策树中寻找最优划分点的过程。特征并行是将对特征进行划分，每个worker找到局部的最佳切分点，使用点对点通信找到全局的最佳切分点。

传统算法：
不同worker存储不同的特征集，在找到全局的最佳划分点后，具有该划分点的worker进行节点分裂，然后广播切分后的左右子树数据结果，其他worker收到结果后也进行划分。
LightGBM中算法
每个worker中保存了所有的特征集，在找到全局的最佳划分点后每个worker可自行进行划分，不再进行广播划分结果，减少了网络的通信量。但存储代价变高。

数据并行的目标是并行化整个决策学习的过程。每个worker中拥有部分数据，独立的构建局部直方图，合并后得到全局直方图，在全局直方图中寻找最优切分点进行分裂。

LightGBM采用一种称为PV-Tree的算法进行投票并行(Voting Parallel),其实这本质上也是一种数据并行，PV-Tree和普通的决策树差不多，只是在寻找最优切分点上有所不同。

每个worker拥有部分数据，独自构建直方图并找到top-K最优的划分特征，中心worker聚合得到最优的2K个全局划分特征，再向每个worker手机top-2k特征的直方图，并进行合并得到最优划分，广播给所有worker进行本地划分。

结束语

lightGBM主要提出了两个新颖的方法：GOSS和EFB。两者都对算法性能的提升有着重要的贡献，其中GOSS是针对分裂时样本的数目进行采样优化（行优化），EFB是针对特征进行合并，达到特征减少的目的（列优化）。

实际上，XGBoost和lightGBM都属于GBDT的一种实现，旨在优化算法的性能，提升算法的训练速度，与XGBoost相比，lightGBM更适应于数据量更大的场景。

从GBDT->XGBoost->lightGBM，在模型训练阶段，是不能百分百地断定lightGBM就比GBDT和XGBoost好，因为数据量的大小也决定了模型的可行性。所以实际场景中，还是建议一一尝试之后再做抉择，因为训练一个XGBoost或lightGBM，都是非常简单的事情。

参考文献

Boosting模型：lightGBM 算法原理
集成学习：XGBoost, lightGBM
https://baike.baidu.com/item/NP-hard

Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
Python 4.0新特性解析：性能优化与语法升级知识产权13937636601 计算机 python 性能优化开发语言
本文针对Python4.0的核心升级展开系统性分析，从性能优化与语法革新两个维度揭示其技术突破。首先解析新型解释器架构对运算效率的提升路径，其次探讨模式匹配、异步编程简化和类型系统强化等语法特性，最后结合机器学习与高并发场景验证新版本的实践价值。研究发现，Python4.0通过JIT编译器与内存管理重构实现3倍以上性能跃升，同时静态类型推导的完善显著提升大型项目维护效率，标志着Python从"胶水
Python,C++,go语言开发社会犯罪人群回归社会跟踪与辅助管理APP Geeker-2025 python c++golang
开发一款用于**社会犯罪人群回归社会跟踪与辅助管理**的App，结合Python、C++和Go语言的优势，可以实现高效的数据处理、实时的跟踪监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python+Go）-**编程语言**：-**Python**：用于数据处理、机器学习（如风险评估、行为预测）、脚本编写等。-**Go**：用
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
【免费下载】探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破
探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破在这个数字化时代，人工智能正逐步改变我们的生活，其中深度学习在农业领域的应用尤其引人注目。PlantVillage-Dataset是一个开放源代码的项目，它提供了一个庞大的植物病害识别数据集，旨在帮助开发人员和研究者利用机器学习技术改善农作物健康状况的监测。本文将深入探讨该项目的技术细节、应用价值及其独特之处。项目简
Python 的 GIL 时代即将终结，迈向真正的多线程时代技术狂潮AI Python开发实战 AI编程实战 AI应用实战开发语言 GIL Python
Python功能强大、灵活且对程序员友好，广泛应用于从Web开发到机器学习的各个领域。根据引用次数最多的两项指标，Python甚至超越了Java和C等语言，成为最流行的编程语言。经过多年的流行，Python似乎势不可挡。但Python作为一种编程语言的未来发展至少面临一个重大障碍。它被称为GIL，即全局解释器锁，几十年来，Python开发人员一直试图将其从Python的默认实现中删除。虽然GIL在
如何从零开始入行机器学习
在当今的科技浪潮中，机器学习无疑是最耀眼的明星之一。它不仅引领了人工智能的发展，还在各个行业中催生了大量的创新和变革。对于那些对技术充满热情、渴望在这个领域有所作为的人来说，“如何从零开始入行机器学习”成为了最热门的话题之一。这不仅仅是技术上的挑战，更是一个职业生涯的新起点。想象一下，在未来的工作中，你能够开发出自动识别图像的应用程序，或者设计一个可以预测市场趋势的智能系统，这一切都源于你现在迈出
如何评价开课吧机器学习特训营这个课程？ cda2024 机器学习人工智能
开场：点明主题，吸引眼球在当今数据驱动的时代，机器学习（MachineLearning）已经成为各个行业不可或缺的技术之一。无论是金融、医疗、制造还是零售，机器学习的应用都为这些领域带来了巨大的变革。面对这样的趋势，许多人都希望能够掌握这门技术，从而提升自己的职业竞争力。那么，当我们谈论“如何评价开课吧机器学习特训营这个课程”时，实际上是在探讨一个非常具体且重要的问题：对于那些希望进入或深入机器学
Anaconda（AI生成测试） harrio_ python
技术文章大纲：Anaconda插件开发挑战赛引言Anaconda作为数据科学与机器学习的核心工具，其插件生态系统的扩展性为开发者提供了广阔的创新空间。插件开发挑战赛旨在激励开发者探索Anaconda的潜力，解决实际场景中的技术痛点。以下为技术文章的核心框架。Anaconda插件开发的核心价值插件开发能够增强Anaconda的功能模块化，例如集成新的编程语言支持、优化包管理流程或扩展可视化工具。通过
Python与机器学习库Scikit-learn进阶 master_chenchengg python python Python python开发 IT
Python与机器学习库Scikit-learn进阶Scikit-learn进阶之旅：从新手到高手的必经之路为什么选择Scikit-learn？安装与环境设置特征工程的艺术：打造更强大的预测模型数据清洗特征构造模型调优秘籍：网格搜索与交叉验证的最佳实践网格搜索交叉验证集成学习的魅力：提升模型性能的组合拳随机森林梯度提升机堆叠实战案例解析：使用Scikit-learn解决真实世界问题数据准备模型训练
表征学习：机器认知世界的核心能力与前沿突破大千AI助手人工智能 #OTHER Python 学习人工智能机器学习神经网络表征学习 RL 特征工程
一、定义与背景：从特征工程到自动化学习表征学习（RepresentationLearning），又称特征学习（FeatureLearning），是机器学习的核心技术领域，其核心目标是通过算法自动学习数据的内在特征表示，将复杂多变的原始数据（如图像、文本、语音）转化为低维、富含语义信息的向量形式，从而提升下游任务（如分类、回归、聚类）的效率和精度。与传统依赖人工设计特征的特征工程（FeatureEn
踏上人工智能之旅（一）-----机器学习之knn算法 Sunhen_Qiletian 人工智能机器学习算法 python
目录一、机器学习是什么（1）概述（2）三种类型1.监督学习（SupervisedLearning）：2.无监督学习（UnsupervisedLearning）：3.强化学习（ReinforcementLearning）：二、KNN算法的基本原理：1.距离度量：2.K值的选择：3.投票机制和投票：三、Python实现KNN算法1.导入必要的库和数据：2.提取特征和标签：3.导入KNN分类器并训练模型
【Python】pandas.cut()函数的用法
pandas.cut()函数是一个非常有用的工具，用于将数值型数据按照指定的分箱或区间进行分割，从而将连续的数值变量转换为离散的类别变量。这在数据分析和机器学习的特征工程中尤其有用，因为它可以帮助揭示不同区间内的数据分布特征，或者简化模型的输入。基本用法pandas.cut()的基本语法如下：pandas.cut(x,bins,right=True,labels=None,retbins=Fals
以AI人工智能为核心，发展空间智能 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
以AI人工智能为核心，发展空间智能关键词：人工智能、空间智能、智能系统、机器学习、计算机视觉、物联网、自动化技术摘要：本文围绕"以AI人工智能为核心发展空间智能"这一主题，系统解析空间智能的技术架构与实现路径。通过揭示AI与空间智能的核心关联，深入探讨机器学习、计算机视觉、数字孪生等关键技术如何赋能空间数据的感知、处理与决策。结合智能建筑、智慧城市等实际场景，展示从算法原理到工程落地的完整技术链条
Python金融分析：情感分析在量化价值投资中的完整实现 AI量化价值投资入门到精通 python 金融开发语言 ai
Python金融分析：情感分析在量化价值投资中的完整实现关键词：Python金融分析、情感分析、量化投资、价值投资、自然语言处理、机器学习、金融文本挖掘摘要：本文系统解析如何将情感分析技术深度整合到量化价值投资体系中，通过Python实现从金融文本数据采集、预处理、情感建模到策略回测的完整流程。详细阐述基于规则引擎、机器学习和深度学习的多维度情感分析方法，结合财务指标构建复合投资模型，并通过实战案
通用图片 OCR 到 Word API 数据接口 2301_78772565 ocr
通用图片OCR到WordAPI数据接口高可用图像识别引擎，基于机器学习，超精准识别率。1.产品功能通用的识别接口，支持多种图片格式；支持中英文字符混合识别；支持Base64以及网络地址传参；基于机器学习不断提高的识别率；输出的Word文件永久存储；数据持续更新与维护；全接口支持HTTPS（TLSv1.0/v1.1/v1.2/v1.3）；全面兼容AppleATS；全国多节点CDN部署；接口极速响应，
机器学习模型评估：交叉验证、混淆矩阵、ROC曲线及其在医学影像领域的应用猿享天开机器学习矩阵人工智能 DICOM医学影像模型评估
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
深入详解：决策树在医学影像分割特征选择中的应用与实现猿享天开决策树算法机器学习人工智能
深入详解：决策树在医学影像分割特征选择中的应用与实现决策树（DecisionTree）作为一种经典的机器学习算法，以其简单、直观和可解释性强的特点，在医学影像分割的特征选择中扮演了重要角色。医学影像分割（如分割脑肿瘤、肝脏、肺结节等）需要从高维影像数据中提取关键特征，以提升分割模型的精度和效率。决策树通过构建树形结构，筛选对分割任务最重要的特征，降低数据维度，同时提供可解释的规则。本文将从原理、实
机器学习概述炀水机器学习人工智能
一、机器学习算法与流程（一）、机器学习的主要流程：1.明确分析目标，2.数据收集，3.数据预处理，4.建模分析，5.结果评估，6.部署使用以及学习更新。1.明确分析目标：客观反映用户需求，通过对各类人群的深入分析，为相关部门制订资费、服务、市场策略提供基础。2.数据收集：收集相关的数据，充足、全面的高质量数据是机器学习的基础。3.数据预处理：数据可能存在着噪声、不一致、异常、个人隐私保护等各类问题
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》