楚江客

翻译：An Introduction to Feature Extraction 特征提取导论。（如有不当欢迎评论区留言指正）

作者：Isabelle Guyon¹ and Andr´e Elisseeff²

这一章向读者介绍了本书³中涵盖的特征提取（ Feature Extraction）的各个方面。第1节综述了定义和符号，并提出了特征提取问题的统一定义。第2节是概述书中提出的方法和结果，强调方法的新颖性。第3节通过展示简短、具有启发性例子和简单但有效的算法，为读者提供特征提取领域的切入点。最后，第4节介绍了一种更理论化的形式，并指出了研究方向和有待解决的问题。

1. 特征提取的基础知识

在这一节中，我们将介绍一些对本书第一部分的理解必要的关键概念。稍后会分别看到我们建立的不同概念。

1.1 预测建模（Predictive modeling）

这本书是关于预测建模（Predictive modeling）或有监督的机器学习问题（supervised machine learning）。后者指的是计算机科学的一个分支，其致力于用计算机程序重现人类学习能力。机器学习这个词最初是由塞缪尔在50年代创造的，旨在涵盖许多可以从人类转移到机器的智能活动。术语“机器”应该以抽象的方式来理解: 不是物理实例化的机器，而是一个自动化的系统，例如，可以在软件中部署。上个世纪50年代以来，机器学习的研究主要集中在寻找数据中的关系，并分析如何提取这种关系的过程，而不是构建真正的“智能系统”。

机器学习问题是指当一个任务是由一系列例子定义的，而不是由预先设置的规则定义的。机器学习问题有着广泛的应用：从机器人技术、模式识别(语音、手写、人脸识别)，到互联网(文本分类)以及医学领域(诊断、预后、药物发现)。给定一些与预测结果相关的训练样本(也称为数据点、样本、模式或观察)，机器学习的过程是仅仅只使用训练样本来发现模式和结果之间的关系。这与人类学习有很多相似之处，在学生的学习中，学生会得到一些例子，说明哪些是正确的，哪些是错误的，并推断出哪些规则是决策的基础。具体来说，考虑下面的例子: 训练数据是病人的临床观察数据，数据标签是健康状况:健康或患有癌症。学习目标是预测新的未知的测试实例的结果，即新患者的健康状况。在测试数据上的性能称为泛化能力。要执行此任务，必须建立一个预测模型或预测器，它通常是一个具有可调参数的函数，称为学习机，通过利用训练样本选择学习机的最优参数集。

我们将在本书的各个章节中看到，通常，增强学习机的泛化能力能够促进特征选择。基于这个原因，在第一章将会看到经典的学习机器(如Fisher的线性判别和K近邻)和先进的学习机器(如神经网络，树分类器，支持向量机(SVM))。更高级的技术如集成方法（ensemble methods）将在第5章进行介绍。不那么传统的神经模糊方法将在第8章中介绍。第2章提供了如何评估分类器性能的方法。但是，在进行任何建模之前，必须进行特征构造。这是下一节的内容。

1.2 特征构造（Feature construction）

在这本书中，数据用固定数量的特征来表示，这些特征可以是二进制的、分类的或连续的。特征和输入变量或属性是相同的意思。找到一个好的特征是取决于特定的领域，并且与可用的测量方法相关。在我们的医疗诊断示例中，特征可能是症状，即对患者健康状况进行分类的一组变量(例如发烧、血糖水平等)。

将原始数据转换为一组有用的特征通常需要人类的专业知识，此外，自动特征构造方法可以对其进行补充。在某些方法中，特征构造被集成到建模过程中（译者注：例如深度学习方法）。例如，人工神经网络中的“隐藏层的神经元”的计算就类似于构造特征。在其他方法中，特征构造属于预处理的过程。为了描述这个预处理的步骤，我们介绍一些概念：设 $X$ 为 $n$ 维的模式向量， $X = [x_1, x_2，…,x_n]$ , 这个向量的分量 $x_i$ 是原始特征。我们令 $X^{'}$ 为 $n^{'}$ 维的变换后的特征向量。预处理变换可能包括：

归一化（Standardization）：特征可以有不同的尺度，尽管这些尺度是可比较的对象。例如，考虑一个特征 $X = [x_1,x_2]$ 其中:x1是以米为单位的宽度，x2是以厘米为单位的高度。两者都可以进行比较、加或减，但在适当的归一化之前这样做是不合理的。常用的数据对齐和缩放方法如下： $x'_i=(x_i - \mu_i)/\sigma_i$ ，其中 $\mu_i$ 和 $\sigma_i$ 是原始训练样本特征 $x_i$ 的均值和标准差。
标准化（Normalization）：考虑这样一个例子， $X$ 是一个图像, $x_i$ 是颜色为 $i$ 的像素个数，对 $X$ 进行这样的标准化是有意义的：除以像素总数来表征像素分布和消除对图像的大小的依赖。这可以转化为公式表示： $X^{'} = X / ∣ ∣ X ∣ ∣$ 。
信号增强(Signal enhancement)：可以通过使用信号或图像处理中的滤波器来提高信噪比。这些操作包括基线或背景去除、降噪、平滑或锐化。傅里叶变换和小波变换是常用的方法。我们参考了数字信号处理(Lyons, 2004)、小波(Walker, 1999)、图像处理(R. C. Gonzalez, 1992)和形态学图像分析(Soille, 2004)的入门书籍。
提取局部特征（Extraction of local features）：对于顺序的、空间的或其他结构化的数据，使用特定的技术，如使用手工制作内核的卷积方法或语法和结构方法。这些技术将特定问题的知识编码到特证中。它们超出了本书的范围，但值得一提的是它们可以带来显著的改进。
线性和非线性空间嵌入方法（Linear and non-linear space embedding methods）：
当数据的维数非常高时，可以使用一些技术将数据投影或嵌入到较低维的空间中，同时保留尽可能多的信息。经典的例子是主成分分析(PCA)和多维标度(MDS) (Kruskal and Wish, 1978)。低维空间中的数据点的坐标可以用作特征，也可以简单地用作数据可视化的手段。
非线性扩张（Non-linear expansions）：虽然在讨论复杂数据时经常需要降维，但有时增加维数会更好。当问题非常复杂，最初的方法不足以得到好的结果时，就会发生这种情况。这包括例如计算原始特征 $x_i$ 的乘积来创建单项特征 $x_{k1} x_{k2} …x_{kp}$ 。
特征离散化（Feature discretization）：有些算法不能很好地处理连续数据。因此，将连续值离散为有限离散集是有意义的。这一步不仅方便某些算法的使用，它还可以简化数据描述和提高数据理解(Liu and Motoda, 1998)。

有些方法不改变空间维数(如信号增强、归一化、标准化)，而有些方法则扩大空间维数(非线性扩张、特征离散化)、有的缩小空间维数(空间嵌入方法)，或者朝任意方向降低维度(提取局部特征)。

特征构建是数据分析过程中的关键步骤之一，在很大程度上决定了后续统计或机器学习的成功与否。特别是，应该注意不要在特征构建阶段丢失信息。将原始特征添加到预处理后的数据中可能是个好主意，或者至少比较用两种数据表示方法获得的性能。我们认为，过于包容总比冒着放弃有用信息的风险要好。我们之前使用的医疗诊断示例说明了这一点。许多因素都可能影响病人的健康状况。在通常的临床变量(温度、血压、血糖水平、体重、身高等)之外，可能还需要添加饮食信息(低脂肪、低碳酸盐量等)、家族史，甚至天气状况。添加所有这些特性似乎是合理的，但这是有代价的:它增加了模式的维度，从而将相关信息沉浸在可能不相关、嘈杂或冗余的特性的海洋中。我们如何知道什么时候一个特征是相关的或信息丰富的?这就是特征选择的意义所在，也是本书的重点。

1.3 特征选择(Feature selection)

我们将特征提取问题分解为两个步骤:特征构建(在上一节中简要回顾)和特征选择(现在我们将关注这两个步骤)。虽然特征选择主要是为了选择相关的和信息丰富的特征，但它可能有其他动机，包括：

通用数据压缩，限制存储要求，提高算法速度;
特征集约简，以节省下一轮数据收集或利用过程中的资源;
提高性能，提高预测精度;
数据理解，获取关于生成数据的过程的知识，或者简单地可视化数据

第一部分中有几章专门讨论特征选择技术。第三章回顾了滤波器法（filter methods）。滤波器通常被认为是特征排序方法。这些方法使用相关性指数提供了特征的完整顺序。排序指标的计算方法包括用来评估个体变量对结果(或目标)的依赖程度的相关系数。还使用了多种其他统计量，包括经典检验统计量(t检验、f检验、卡方检验等)。更普遍的是，在不优化预测器性能的情况下选择特征的方法称为“滤波器”。第6章介绍了信息理论滤波器。

第4章和第5章专门讨论包装器和嵌入式方法。这些方法将预测器作为选择过程的一部分。
包装器利用学习机作为黑盒子，根据特征的预测能力对子集进行评分。嵌入式方法在训练过程中进行特征选择，通常针对特定的学习机器。在数据集的小扰动下，包装器和嵌入方法可能产生非常不同的特征子集。为了减小这种影响，第七章解释了如何使用集成方法来提高特征集的稳定性。

特征选择的一个关键方面是正确地评估所选特征的质量。第二章回顾了经典统计和机器学习的方法。特别地，本章回顾了假设检验、交叉验证和实验设计某些方面(需要多少训练样本来解决特征选择问题)。

最后，需要注意的是，作为全局优化问题的一部分，特征构建和特征选择可以同时进行。第6章向读者介绍了这方面的方法。

1.4 理论

第一部分的章节以主题的方式将论题分组，而不是以方法的方式。在本节中，受到(Liu and Motoda, 1998)观点的启发，我们提出了一个统一的特征选择定义，它超越了旧的过滤器/包装器。

翻译：An Introduction to Feature Extraction 特征提取导论。（如有不当欢迎评论区留言指正）_第1张图片

图1 特征选择的三种主要方法。阴影显示了三种方法使用的组件:过滤器、包装器和嵌入式方法。

特征提取有四个方面：

特征构造
特征子集生成（或者搜索策略）
评价标准定义(如相关性指数或预测能力)
评价标准估计(或评价方法)。

最后三个方面与特征选择有关，如图1所示。

过滤器和包装器的不同主要取决于评价标准。一般认为过滤器使用的标准不涉及任何学习机，例如基于相关系数或统计检验的相关指数，而包装器使用基于给定特征子集训练的学习机的性能。

过滤器和包装方法都可以利用搜索策略来探索所有可能的特征组合的空间，而这些空间通常太大，无法详尽地探索(见第4章)。然而，有时过滤器被当做是特征排序方法，因为只有单个特征被评估，因此生成特征子集是平凡的(见第3章)。基于这样定义的规则，由学习机生成和计算得到的特征嵌套子集，就是采用包装方法。另一类嵌入方法(第5章)在训练算法中加入了特征子集的生成和评估。

最后一项，准则估计，将在第2章中介绍。需要克服的困难是，必须从有限的训练数据中估计一个已定义的标准(相关性指数或学习机器的性能)。有两种可能的策略:样本内或样本外。第一个(样本内)是经典的统计方法。它指的是使用所有的训练数据来计算一个经验估计。然后使用统计检验对估计进行测试，以评估其重要性，或者使用性能范围给出保证的估计。第二种(样本外)是机器学习方法。它指的是将训练数据拆分为用于估计预测模型(学习机)参数的训练集和用于估计学习机预测性能的验证集。平均多次分裂(或交叉验证)的结果通常用于减少估计量的方差（译者注：现在的机器学习方法多采用第二种方式）。

2. 特征提取的新方法是什么？

在1997年，当一个关于相关性的特别问题，包括一些关于变量和特征选择的论文发表(Blum and Langley, 1997, Kohavi and John, 1997)，包含一些很少会使用超过40个特征的领域。这种情况在过去几年中发生了很大的变化。我们在2001年组织了第一次NIPS研讨会，该研讨会的论文集包括探索具有数百到数万个变量或特征的领域的论文(Guyon and Elisseeff, 2003)。在这次研讨会之后，我们组织了一个特色选择比赛，其结果在2003年的NIPS研讨会上公布。本书是后者的成果。

书中第二部分描述了比赛结果的排名和参与者使用的方法。第二章对比赛结果进行了总结。我们使用了五个数据集，这些数据集跨越了不同的领域(生物标志物发现、药物发现、手写识别和文本分类)和困难问题(输入变量是连续的或二进制的、稀疏的或密集的;一个数据集有不平衡的类。)一个数据集被人为地构建来说明一个特殊的困难问题：当没有单独提供信息的特征集时，选择一个特征集。我们选择了具有足够多示例的数据集，以创建足够大的测试集并获得统计上显著的结果(Guyon,2003)。我们引入了许多称为探头的随机特征，以增加任务的难度，并确定能够过滤掉它们的算法。

第10章描述了挑战获胜的方法。作者使用贝叶斯神经网络（Neal，1996）和Dirichlet扩散树（Neal，2001）的组合。对于所有数据集，它们的方法有两个方面是相同的：（1）通过使用简单的单变量显著性检验或主成分分析来选择特征子集，将用于分类的特征数量减少到不超过几百个；（2）使用基于贝叶斯学习的分类方法，在使用自动相关确定（ARD）之前，允许模型确定哪些特征最相关（MacKay，1994，Neal，1996）。马尔可夫链蒙特卡罗（MCMC）计算贝叶斯神经网络学习（Neal，1996）。Dirichlet扩散树是一种新的贝叶斯密度建模和层次聚类方法

在第二部分中提出的各种其他方法的性能几乎相同。对于特征选择，过滤方法被证明是非常有效的。前四名参赛者成功地探索了使用随机森林(RF)作为过滤器(第11章、第15章和第12章)。而简单相关系数(第13、14、20、23章)和信息理论排序标准(第22、24章)的表现也很好。最近引入的一些使用支持向量机(SVM)或相关核函数方法的嵌入式方法已成功应用(第12章、第13章、第16章、第18章、第19章和第21章)。其中最具创新性的方法是第17章和第29章提出了一种基于边缘的特征选择方法，该方法受到了Relief 算法的启发(Kira and Rendell, 1992)

在分类器的选择上，排名第二的入选者(第11章)使用简单的正则化最小二乘核方法作为分类器。许多其他的顶尖进入者使用具有各种损失函数的正则核方法,包括核偏最小二乘(KPLS)(21章), vanilla支持向量机(SVM)(第12、20、22、23和24章),传导支持向量机(第13章),贝叶斯SVM(第18章),潜在的SVM(第19章)和1-范数SVM(第十六章)。另外两名参赛者使用了与获胜者类似的神经网络(第14章和第26章)。其他方法包括随机森林(RF)(第15章)、朴素贝叶斯(24章和25章)和简单的最近邻(第17章)。

本书的第三部分用了几章介绍构建特征的新方法。第27章给出了线性和非线性空间嵌入方法的统一框架。第28章提出了一种构造任意损失的正交特征的方法。第31章给出了一个句法特征构造的例子：蛋白质序列基序。

3.开始

在方法的森林中，刚刚开始这一领域的读者可能会迷失。在这一节中，我们将介绍基本概念，并简要描述简单而有效的方法。我们用小的二维分类问题(图2)来说明一些特殊情况。

特征选择的一种方法是根据单个特征之间相关性对特征进行排序(第3.1节)。这种特征排序方法被认为是快速有效的，特别是在特征数量大，可用的训练样本数量相对较少的情况下(例如，10,000个特征，100个例子)。在这些情况下，试图广泛搜索特征子集空间以获得最优预测的方法可能会慢得多，而且容易出现过拟合(对训练数据可以实现完美的预测，但对测试数据的预测能力可能会很低)。

然而，正如我们将在其他例子中看到的(第3.2节和第3.3节)，由于“单变量"方法所做的潜在的特征独立性假设，使得单个特征的排序是有局限性的。

单独不相关的特征可能在其他环境中变得相关;
由于可能存在冗余，单独相关的特征可能并不都有用。

所谓的多变量方法考虑了特征之间的依赖关系。多变量方法可能获得更好的结果，因为它们没有对变量/特征独立性进行简化假设。

3.1 单独相关度排序（Individual relevance ranking）

图2-a显示了一种情况，其中一个特征(x1)单独相关，而另一个特特征(x2)不能帮助提供更好的类分离。在这种情况下，单独的特征排序很有效:单独提供良好的类分离的特征所以排名高，因此将被选择。

皮尔逊相关系数是对个体特征进行排序的经典相关指标。我们用 $x_j$ 表示包含所有训练例子的第 $j$ 个特征的所有值的 $m$ 维向量，用 $y$ 表示包含所有目标值的 $m$ 维向量。 $P e a r s o n$ 相关系数定义为：
$\frac{|\sum_{i=1,j}^m(x_{i,j}-\bar x_j)(y_i - \bar y)|}{\sqrt {\sum_{i=1,j}^m(x_{i,j} - \bar x_j)^2\sum_{i=1}^m(y_i - \bar y)^2}}\tag{1}$

变量上的横线表示的是对于索引 $i$ 的平均值，在向量 $x_i$ 和 $y$ 居中对齐之后(减去它们的平均值)， $P e a r s o n$ 相关系数也是向量 $x_i$ 和 $y$ 之间的余弦相似性的绝对值。皮尔逊相关系数可用于回归和二值分类问题。

翻译：An Introduction to Feature Extraction 特征提取导论。（如有不当欢迎评论区留言指正）_第2张图片

图2 小的二值分类的例子。一类用圆圈表示，另一类用星星表示。横轴表示一种特征，纵轴表示另一种特征。在最后一个例子中，我们有第三个特征。我们用圆圈或星星来表示每个类。我们将类在轴上的投影显示为叠加的圆圈和星星。

对于多类问题，可以使用密切相关的费雪系数。Pearson相关系数也与t检验统计量、朴素贝叶斯排序指标密切相关。有关详细信息和其他排名标准的例子，请参阅第3章。

特征空间的旋转往往会简化特征的选择。图2-a由图2-d旋转45度得到。我们注意到，为了实现同样的分离，图2-d中需要两个特征，而图2-a中只需要一个。旋转是一个简单的线性变换。一些预处理方法，如主成分分析(PCA)执行这样的线性变换，这允许减少空间维数和显示更好的特征。

相关性的概念与所追求的目标有关。与分类无关的特征可能与预测类条件概率有关。图2-a中的特征 $x_2$ 就是这样。这两个类的样本来自于类中心与轴 $x_1$ 对齐后的重叠高斯分布。因此，P(y|x)并不是独立于 $x_2$ ，但无论保留 $x_2$ 特征还是丢弃 $x_2$ 特征，最优贝叶斯分类器的错误率是相同的。这表明密度估计是一个比分类更难的问题，通常需要更多的特征。

3.2 单独不相关的相关特征（Relevant features that are individually irrelevant）

在接下来的内容中，我们证明了多变量方法的合理性，它利用联合考查而不是单独考查的特征的预测能力。

一个有用的特性本身可能是不相关的。多元方法的一个理由是，单独不相关的特征在结合使用时可能变得相关。图2-b给出了一个线性分离的例子，其中一个单独不相关的特征在与另一个特征一起使用时有助于更好地实现类分离。这种情况发生在现实世界的例子中:特征x1可能代表图像中被局部背景变化随机偏移的测量值; 特征x2可能测量的是这样的局部偏移量，它本身并没有提供信息。因此，特征x2与目标完全不相关，但从特征x1减去后，可提高其可分性。

两个单独不相关的特征在组合使用时可能变得相关。图2-c的例子，即众所周知的棋盘问题说明了这种情况。在特征选择挑战(见第二部分)中，我们提出了一个在更高维度空间中推广这种情况的问题:Madelon数据集是由放置在五个维度超立方体顶点上的集群构建的，并随机标记。

Relief 法是多变量过滤法的一个经典例子。使用多变量方法对特征子集进行排序，而不是对单个特征进行排序。

尽管如此，仍然存在根据单独特征在其他背景下的相关性，使用多元相关标准对其进行排序。为了说明这一概念，我们以由Relief算法(Kira and Rendell, 1992)衍生出的分类问题排序指标为例:

$C(j)=\frac{\sum_{i=1}^m\sum_{k=1}^K|x_{i,j}-x_{M_k(i),j}|}{\sum_{i=1}^m\sum_{k=1}^K|x_{i,j}-x_{H_k(i),j}|}\tag{2}$

稍后将解释表示法。Relief算法采用一种基于k近邻算法的方法。为了评价排序指标，我们首先在原始特征空间中识别，对于每个样本 $x_i$ ，取K个同一类中最近的{ $x_{Hk(i)}$ }(距离最近且正确的类)， k = 1,…, K ，以及，K个不同类{ $x_{M_k(i)}$ }(距离最近且误分的类)中最近的样本。然后，在特征 $j$ 的投影中，将这些样本与距离最近且误分的类的距离之和与它们距离最近且正确的类的距离之和进行比较。在方程2中，我们使用这两个量的比率来创建一个独立于特征尺度变化的指标。Relief 算方法适用于多类问题。

3.3 冗余特征（Redundant features）

多变量方法的另一个合理性理由是：它们考虑了特征冗余，并产生更紧凑的特征子集。检测冗余不能像单变量方法那样通过分析特征投影来完成。下面的示例将说明这一点。

当特征具有相同的投影分布时，可以实现降噪。在图2-d中，如果我们比较两个特征投影的分布，它们看起来很相似。然而它们并不是完全冗余的: 二维分布比任意一个特征的一维分布都能实现更好的类分离。在这个例子中，这两个类的数据点是由等方差 $\sigma^2$ 的高斯分布产生的。在任何一个特征上的投影，两类之间的距离d是相同的。因此，每个特征的信噪比就是 $d$ / $\sigma$ 。在第一对角线上投影时，两类之间的距离为 $d\sqrt 2$ ，因此信噪比提高了 $\sqrt 2$ 。加入 $n$ 个具有此类条件独立性的特征，信噪比可提高 $\sqrt n$ 。（译者注：信噪比越大越好）

相关性并不意味着冗余。图2-e和图2- f显示了更引人注目的例子，其中特征投影与图2-d相同。通常认为特征相关(或负相关)意味着特征冗余。在图2-f中，特征是相关的（译者注：散点图趋势越接近直线，越可能是相关），而且确实是冗余的：使用两个特征并没有比使用一个特征能够显著地改善类分离状况。但是在图2-e中，尽管两个特征具有相似的投影并且是负相关的，但它们根本不是冗余的：使用两个特征实现了完美的分离，而每个单独的特征提供了糟糕的类的分离。

3.4 前向选择和后向消除的过程（Forward and backward procedures）

在认识到在其他特征的背景下选择特征和消除冗余的必要性之后，我们有大量的算法可供选择。在包装器和嵌入式方法(第4章和第5章)中，贪婪方法(前向选择或后向消除)是最常用的。在前向选择方法中，人们从一个空集开始，并逐步添加性能指标改进后的特征。在向后消除过程中，人们从所有的特征开始，然后逐步消除最没用的特征。对于过拟合，这两种方法都相当快速和健壮的。这两个过程都提供了嵌套的特性子集。但是，我们将看到，它们可能导致不同的子集，根据应用程序和目标，一种方法可能比另一种方法更可取。我们用算法的例子来说明每种类型的过程。

向前或向后？在图2-g和h中，我们展示了一个三维示例，说明了正向和后向选择过程的差异。在这个例子中，前向选择方法首先选择 $x_3$ ，然后选择另外两个特征中的一个，从而得到 $x_3, x_1, x_2$ 或者 $x_3, x_2, x_1$ 的顺序。后向选择方法会先消去 $x_3$ ，然后再消去另外两个特征中的一个，最终得到 $x_1, x_2, x_3$ 或者 $x_2, x_1, x_3$ 中的一个。的确，在图2-h中，我们看到特征 $x_1$ 和 $x_2$ 中的前投影给出了类似于图2-e的图形。最后一个特征 $x_3$ 单独分离得很好，优于单独取 $x_1$ 或 $x_2$ 。但是，与 $x_1$ 或 $x_2$ 结合使用，它不能提供像{ $x_1, x_2$ }对那样好的分离。因此，如果我们最终选择一个特征(排名最高的 $x_3$ )，前向选择排序会产生更好的选择，但如果我们最终选择两个特征(排名最高的 $x_1$ 和 $x_2$ )，后向选择排序会产生更好的结果。反向消除过程可能产生更好的性能，但可能以更大的特征集为代价。然而，如果特征集减少太多，性能可能会突然下降。在我们前面的例子中，通过后向选择排名最高的特征比通过正向方法选择 $x_3$ 要糟糕得多。

现在给出前向选择算法的例子。GramSchmidt正交化过程是正向选择方法的一个简单例子(详见第2章)。第一个选择的特征是与目标的余弦值最大。对于中心特征，这相当于首先选择与目标最相关的特征(方程1)。如下所示迭代地选择后续的特征：

剩下的特征和目标被投影到已经选择的特征的零空间上；
将该投影中与目标余弦值最大的特征添加到选定的特征中。

该程序选择的特征，是以增量减少线性预测器的最小平方误差。我们可以通过统计检验或交叉验证来停止这个过程(第2章)。这个过程的优点是可以用很少的代码来描述，并且在实践中表现良好。我们给的Matlab实现算法在附录a .值得注意的是与偏最小二乘法(PLS)方法相似的地方是:两种方法涉及迭代计算(投影)输入特征和目标的相关性,紧随然后在所选的特征的零空间上进行一个新的投影;不同的是，在Gram-Schmidt中，选择原始输入特征，而在PLS中，选择的特征被构造成原始特征的加权和，权重由与目标的相关性给出。

另一个更先进的前向选择方法是“随机森林”或RF。决策树的集合(如随机森林(Breiman, 2001))在构建分类或回归树的过程中选择特征。免费的RF软件包来自http://www.stat.berkeley.edu/users/breiman/RandomForests/， Matlab接口来自http://sunsite.univie.ac.at/statlib/matlab/RandomForest.zip。

现在给出后向消除算法的例子。递归特征消除支持向量机(RFE-SVM)是向后消除方法的一个简单例子(详见第5章详细资料)。对于决策函数 $f (x) = w x + b$ 的线性SVM，该方法可归结为简单地迭代去除绝对值 $w_i |$ 中权重最小的特征 $x_i$ ，并对模型进行再训练。以次优为代价，在每次迭代中，通过去除一些特征加快该方法的速度。该方法也可以推广到非线性支持向量机(第5章)。支持向量机在第1章中有描述，并且有许多免费的软件包(参见http://www.kernel-machines.org/)，这使得这种方法在实现方面相当简单。

RFE是一种根据目标函数的最小变化进行权值剪枝的方法。它遵循与最优脑损伤程序（OBD）相同的模式，OBD用于神经网络中的权值剪枝，并可用于特征选择。OBD也与比赛获胜者使用的自动相关性确定（ARD）贝叶斯方法相似（详见第7章和第10章）。

3.5 小结

表1总结了本节中提到的方法。我们建议按照递增的统计复杂性的顺序尝试这些方法：

特征选择	分类器	计算复杂度	备注
Pearson (公式 1)	朴素贝叶斯	$n m$	排名滤波器特征。线性单变量。在特征之间做了独立性假设。低计算和统计复杂度。
Relief (公式 2)	K近邻	$nm^2$	特征排名滤波器。非线性多变量。由邻居数量决定统计复杂度。
Gram-Schmidt(第3.4节)	线性RLSQ	$f n m$	前向选择，停在特征f处。线性多变量。由正则化参数或岭系数决定的RLSQ的统计复杂度
RFE-SVM(第 3.4节)	SVM	$max(n,m)m^2$	后向消除法。多元、线性或非线性。由核选择和软边界约束决定的统计复杂度。
OBD/ARD	神经网络	$m i n (n, m) n m h$	后向消除法。非线性多变量。由隐藏单元数h和正则化参数或权值衰减决定统计复杂度
RF	RF	$t\sqrt n m log m$	每个预先前向选择中，由t树分类器集成学习。非线性多变量。

表1 常用的特征选择方法。我们用缩写RLSQ=正则化最小二乘;RFE =消除递归特征;支持向量机=支持向量机;OBD =最佳脑损伤;ARD =自动关联的决心;RF=随机森林。我们称m为训练样本的数量，n为特征的数量。计算复杂度主要取决于实现，应该谨慎对待。

单变量方法使变量之间的独立假设。特征选择:根据Pearson相关系数排序。分类器:朴素贝叶斯。
线性多变量方法。特征选择:gramm - schmidt正向选择或线性支持向量机RFE。
预测器:线性SVM或线性正则化最小二乘模型(RLSQ.)
非线性多变量方法。特征选择:Relief、RFE、OBD或ARD与非线性模型相结合。预测器: 最近邻，非线性支持向量机或RLSQ，神经网络，RF。

计算复杂度有时也要考虑。我们在表1中增加了特征选择过程的一些数量级的计算复杂度。这并不包括确定要选择的特征的最佳数量的评估部分。我们估算的理由见附录B。

4. 高级主题和开放问题

这本书介绍了一个迅速发展的领域的现状。这些应用推动了这一领域:生物信息学、化学信息学、文本处理、语音处理和机器视觉提供了非常高维空间的机器学习问题，但通常比较少的例子(数百个)。令人惊讶的是，现在仍然有大量的特征选择方法，而且似乎没有形成共识。第一个原因是有几个关于特征选择问题的表述。其他原因包括一些方法专门特定情况下(如二进制输入或输出),可以使用一些方法计算效率低下,所以他们只有少量的特征,一些方法容易过拟合,这样他们仅可以用于大量的训练样本。

简单的方法通常很有效，这一事实鼓励了从业者。然而，这不应掩盖问题的复杂性和我们在改进现有技术和巩固理论方面所面临的挑战。发明一种新的算法是了解这些问题的一种很好的方法。但是已有的算法太多，如果不从原则上进行改进，很难在现有技术的基础上有显著的提高。这一节提出了一些问题的正式数学表述，在这些问题上可以建立新的理论。

让我们先介绍一些符号。模式是特征向量 $x = [x_1, x_2，…, x_n]$ ，它是一个随机向量 $X = [X_1, X_2，…,X_n]$ 的实例。对于每一个值的取值，我们有一个概率 $P (X = x)$ 来决定。我们假设这些值是离散的，以简化符号。目标是一个取 $y$ 值的随机变量 $Y$ , X和Y之间的依赖性由分布 $P (X = x, Y = y) = P (Y = y ∣ X = x) P (X = x)$ 决定。

我们的意思是，对于随机变量所取的所有值，等式都成立。设 $V$ 是 $X$ 的子集。设 $X^{ -i}$ 是 $X$ 除 $x_i$ 外的子集。并且 $V^{-i}$ 是 $X^{-i}$ 的子集。

4.1 相关特征⁴

我们从相关特征的概念开始。我们首先将不相关性定义为随机变量独立性的结果，然后通过对比来定义相关性。首先，我们假设对数据分布有一定的了解，而实际上这些数据分布是未知的。然后我们讨论在有限样本情况下可以做什么。

定义1：确定不相关特征(Surely irrelevant feature)。一个特征 $X_i$ 是确定和所有 $V^{-i} \in X^{-i}$ 的子集不相关： $P(X_i, Y |V^{ -i}) = P(X_i|V^{ -i})P(Y |V^{ -i})$ ⁵

由于我们很少关心概率为零或较小的情况，因此测量概率的不相关性似乎很自然，例如 $P(X_i, Y |V^{ -i})$ 和 $P(X_i|V^{-i})P(Y |V^{ -i})$ 之间的Kullback-Leibler散度:
$MI(X_i, Y|V^{-i}) = \sum_{\{X_i, Y\}}P(X_i, Y|V^{-i}) log\frac{P(X_i, Y |V^{ -i}) }{ P(X_i|V^{ -i})P(Y |V^{ -i})}$

我们注意到得到的表达式中随机变量 $X_i$ 和 $Y$ 的所有可能值的和就是条件互信息⁶。因此它是一个 $n - 1$ 个变量的函数。为了得出一个能够总结特征 $X_i$ 相关性程度的分数，我们对所有 $V^{-i}$ 条件下的互信息值进行平均： $EMI(X_i, Y ) =\sum_{V^{-i}} P(V^{-i})MI(X_i, Y |V^{-i})$

我们定义：
定义2：近似无关特征（Approximately irrelevant feature):在近似水平 $\epsilon > 0$ 或者 $\epsilon -relevant$ 下，一个特征 $X_i$ 是近似无关特征，当且仅当，对于所有 $V^{-i} \in X^{-i}$ 的子集有：
$EMI(X_i, Y) \leq \epsilon$
当 $\epsilon=0$ , 特征被称为几乎确定无关。

在上面表述中，自然会想到把条件互信息当做是相关性的排序指标，我们可以通过对比不相关性的概念来定义相关性。但是这样定义中的特征选择的计算代价昂贵，因为它需要考虑所有的子集特征 $V^{-i}$ 和所有 $V^{-i}$ 的值累加求和。但是如果我们假设对于所有 $\neq j$ , 特征 $X_i$ 和 $X_j$ 是独立的，那么平均条件互信息 $EMI(X_i, Y)$ 是与 $X_i$ 和 $Y$ 之间的互信息相同的： $EMI(X_i, Y ) = MI(X_i, Y )$

这引出了下面的定义：

定义3：单独无关特征。特征 $X_i$ 是单独无关，当且仅当，存在相关阈值 $\epsilon\geq 0$ 使得:
$MI(X_i, Y ) ≤ \epsilon$

这个定义的推导证明了使用互信息作为特征排名指数的合理性(见第6章)。

现在讨论有限样本（finite sample case ）。在实际情况中，我们无法获得 $P (X)$ 和 $P (Y ∣ X)$ 的概率分布，但我们有从这些分布中提取的训练样本。我们定义了一个可能近似不相关（Probably approximately irrelevant）的新概念。同时，我们将定义中的准则 $EMI(X_i, Y)$ 或 $MI(X_i, Y)$ 替换为一个通用的非负指标 $C (i)$ ，对于不相关的特征，其期望值为零。我们将指标写成 $C (i, m)$ ，以强调它是由 $m$ 个训练样本计算出来的经验指标值。

定义4：可能近似不相关特征（Probably approximately irrelevant feature）：由 $m$ 个样本的计算的指标 $C$ 的估计值，在近似水平 $\epsilon \geq 0$ 和风险 $\delta\geq0$ 下，特征 $i$ 可能近似无关, 当且仅当： $\epsilon(δ, m)) ≤ \delta$

显然，对于相关的特征，我们并不知道大小为 $m$ 而类型不同的训练集之间 $C (i, m)$ 的概率分布，所以我们似乎进展不大。然而，对于不相关的特征，我们可以对 $C$ 的分布做一些假设。遵循假设检验的范式，我们称不相关特征的 $C$ 值分布为零（null）分布。对于给定的候选特征i，原假设为该特征不相关。如果 $C (i, m)$ 显著偏离零，我们将拒绝这个原假设。使用零（null）分布和一个选择风险值，我们可以计算显著性阈值 $(\delta,m)$ ，评估特征相关性的统计显著性方法将在第二章进一步探讨。

讨论。文献中提供了许多有关相关性的定义。Kohavi和John (Kohavi and John, 1997)区分了强相关特征和弱相关特征。我们回顾这些定义：

特征 $X_i$ 是强相关的, 当且仅当，存在一些值 $x_i, y, v_i$ ，当 $P (X_i = x_i, X^{-i} = v_i) > 0$ 时： $X_i = x_i ,X^{-i} = v_i) \neq P (Y = Y | X^{-i} = v_i)$ ⁷。一个特性 $X_i$ 是弱相关的，当且仅当, 它不那么强相关，并且如果存在特征集合 $V^{-i}$ 的一个子集，对于存在一些值 $x_i, y, v_i$ , 使得当 $P(X_i = x_i, V_i = v_i) >0$ 时有： $|X_i = x_i, V_i = v_i) \neq P (Y = y |V_i = v_i)$ 。

我们对相关性的渐近定义同样基于条件作用。Kohavi和John对强相关性和弱相关性的介绍似乎是以考虑冗余的需要为指导的：需要强相关性特征，不能删除；而弱相关性特征与其他相关特征是冗余的，因此如果保留相似特征，可以省略弱相关特征。我们的方法将冗余的概念与相关的概念分开：如果一个特征包含了关于目标的一些信息，那么它就是相关的。由于我们对相关性的定义不那么具体，我们在第4.2节引入了充分特征子集（sufficient feature subset）的概念，这是一个提取相关特征的最小子集的概念，从而在需要时排除冗余概念。

4.2 充分特征子集（sufficient feature subset）

在上一节中，我们提供了特征相关性概念的正式定义。如3.3节所述，相关的特征可能是冗余的。因此，根据相关性对特征进行排序，并不能提取出能够做出最优预测的最小特征子集。在本节中，我们提出了特征子集充分性的一些正式定义。我们引入符号 $\bar V$ 来表示特征集合 $V$ 的补集，其中 $V\in X : X=\{V, \bar V\}$ 。

定义5：确定充分特征子集(Surely sufficient feature subset ):一个特征集合的子集 $V$ 是充分的，当且仅当，对该子集的补集 $\bar V$ 所有取值有： $P (Y ∣ V) = P (Y ∣ X)$
就像在定义特征相关性的情况下一样，由于我们很少关心概率为零或概率很小的情况，因此在概率中度量充分性似乎很自然。我们定义一个新的量： $DMI(V)=\sum_{\{v,\bar v, y\}}P(X=[v,\bar v], Y=y)log\frac{P(Y=y|X=[v,\bar v])}{P(Y=y|V=v)}$
这个量在(Koller and Sahami, 1996)中被引入，是 $P (Y ∣ X)$ 和 $P (Y ∣ V)$ 之间的Kullback-Lebler散度的期望值除以P(X)。可以证明: $D M I (V) = M I (X, Y) - M I (V, Y)$

定义6：近似充分特征子集（Approximately sufficient feature subset）：特征集合的子集 $V$ 是近似充分特征子集，在近似水平 $\epsilon \geq 0$ ，或者是 $\epsilon-充分$ , 当且仅当：
$\leq \epsilon$
如果 $\epsilon =0$ 那么，子集V就是几乎充分的。

定义7：最小近似充分特征子集（Minimal approximately sufficient feature subset ）：当且仅当近似水平 $\epsilon \geq 0$ 时，如果它是 $\epsilon-充分$ 的，并且不存在其他较小的 $\epsilon-充分$ 的子集，那么特征的一个子集V是最小的近似充分的。

根据我们的定义，可以得出推论：最小近似充分特征子集是优化问题的一个解(可能不是唯一的)： $min_V ||V||_0$ $s.t\quad DMI(V ) ≤ \epsilon$
式中， $V||_0$ 表示选择的特征数量。这种优化问题可以通过使用拉格朗日乘子 $\lambda > 0$ 进行变换为:
$\min_V ||V||_0 + \lambda DMI(V )$
需要注意的是 $M I (X, Y)$ 是常数，因此上面等价于：
$\min_V ||V||_0 - \lambda MI(V, Y )$

我们获得了第6章所述的特征选择问题：找到使特征子集和目标之间的互信息最大的最小可能特征子集。

我们注意到V0是离散的，因此很难优化。有人建议(Tishby et al.， 1999)用MI(X, V)代替它。如3.1节所述，后验概率的预测是一个比分类或回归更难的问题。因此，我们可能想用最小化给定风险函数(例如分类错误率)来代替最大化互信息的问题。零范数特征选择方法的制定遵循了这一思路(见第5章)。

4.3 特征子集选择方差（Variance of feature subset selection）

如果数据具有冗余的特征，不同的特征子集可以同等有效。对于某些应用程序，可能希望有意生成可提供给后续处理阶段的备选子集。仍然有人可能会发现方差是不可取的，因为(i)方差通常是泛化能力很差的模型的症状，（ii）结果不可重复；(iii)一个子集不能捕捉全局信息。

在第七章中提出的一种稳定变量选择的方法是使用集成方法。特征选择过程可能会重复选择带有训练数据的子样本。所选特征子集的并集可以作为最终的稳定子集。可以将相关性指标定义为单个特征在选定子集中出现的频率。

这种方法显示出了巨大的潜力，但有以下局限性值得一提：当一个与自身高度相关的特征是许多具有弱独立相关性的可替代的特征的补集时，高度相关的特征将很容易在过程中浮现，而弱相关特征则很难从不相关的特征中区分开来。这可能对性能不利。

4.4 提出问题

在结束本章之前，我们想描述一些我们认为值得注意的研究方向。
更具有理论基础的算法。很多流行的算法没有原则性，很难理解它们要解决什么问题以及如何以最佳方式解决它。重要的是要从一个清晰的数学表述开始（见第4.1节和第4.2节的初步指南）应该清楚地说明所选择的方法如何最佳地解决所述问题。最后，对于所述的优化问题，该算法所作的最终近似应加以说明。一个有趣的研究课题是在理论框架内改进成功的启发式算法。

更好地估计计算成本。计算方面的考虑是相当容易理解的。但是，尽管不断增长的计算机速度降低了算法效率的重要性，但估计算法在特征选择问题上的计算成本仍然是至关重要的。计算时间本质上是由搜索策略和评价准则驱动的。有几种特征选择方法需要检查大量的特征子集，可能还需要检查所有的特征子集，即 $2^n$ 个子集。贪心方法通常更省力，只访问 $n$ 或 $n^2$ 个的子集。评估准则也可能是代价昂贵的，因为它可能涉及训练一个分类器或比较每对样本或特征。另外，评估标准可能涉及一个或几个嵌套的交叉验证循环。最后，集成方法以额外的计算为代价提高了性能。

更好特征选择的性能评估。另一个需要解决的重要问题是统计性质方面的：在选择相关的特征或获得良好的预测性能上，一些方法比其他方法需要更多的训练样本。过度拟合的危险在于找到能很好地解释训练数据的特征，但却不具备真正的相关性或预测能力。对解决特征选择问题所需的样本数进行理论预测，对于选择合适的特征选择方法和规划未来的数据采集至关重要。解决这个问题的初步结果如(Almuallim和Dietterich, 1991)和(Ng, 1998)。

睿智的读者会注意到，在4.2节中，我们没有处理有限的样本情况以获得足够的特征子集。形式表述还不够充分。我们认为，在有限的样本情况下，不充分的特征子集可能比充分的子集(即使它们是最小的，不包含不相关的特征)产生更好的性能，因为进一步降低空间维数可能有助于降低过拟合的风险。根据包装器方法论(Kohavi和John, 1997)，可能有必要引入一个有效特征子集的概念：当学习机用有限数量的m个样本训练时，一个子集提供风险的最佳期望值。一个核心问题是设计性能界限来描述有效的特征子集。

**其他挑战。**虽然我们在这篇介绍和书中努力涵盖了大量与特征提取相关的主题，但我们并没有穷尽所有。我们简要列出其他一些感兴趣的主题。

无监督的变量选择。一些作者尝试为集群应用程序进行特征选择(参见，例如，Xing和Karp, 2001, Ben-Hur和Guyon, 2003，以及其中的参考文献)。对于有监督的学习任务，可能需要预先过滤一组最重要的变量，而不是使用y来减少过度拟合的问题。
样本选择。特征选择/构造的对偶问题就是样本选择/构造。标错的样本可能会导致错误的特征选择，因此最好是将特征和样本联合进行选择。
**系统逆向工程。**我们的介绍集中在构造和选择有用的特征来建立一个好的预测器的问题上。阐明变量之间的因果关系和对产生数据的系统进行反向工程是一项更具挑战性的任务(见，例如，Pearl, 2000)，这超出了本书的范围。

5. 总结

在这篇介绍中，我们介绍了特征提取问题的许多方面。这本书涵盖了广泛的主题，并提供了解决问题的途径，特别是特征选择，这是本书的第二部分的对象。简单而有效的解决办法已经被提出作为出发点。读者现在可以学习其他章节来发现更高级的解决方案。我们已经指出了一些开放的问题，以挑战读者为这个迅速发展的领域作出贡献。

ClopiNet, 955 Creston Rd., Berkeley, CA 94708, USA. [email protected] ↩︎
IBM Research GmbH, Zurich Research Laboratory, S ¨ ¨aumerstrasse 4, CH-8803Ruschlikon, Switzerland. ¨ [email protected] ↩︎
http://clopinet.com/isabelle/Projects/NIPS2003/call-for-papers.html ↩︎
译者注：本文中，相关一词指的是特征和目标之间的相关性 ↩︎
译者注--条件独立定义：事件 Z 的发生，使本来可能不独立的事件X和事件Y变得独立起来。则称X、Y关于Z条件独立。数学符号表示：对于第三个给定事件Z，如果有 $P (X, Y ∣ Z) = P (X ∣ Z) P (Y ∣ Z)$ ,则称X、Y关于Z条件独立。 ↩︎
译者注：互信息（非条件互信息） $MI(X,Y)=\sum_{\{X,Y\}}P(X,Y)log\frac{P(X,Y)}{P(X)P(Y)}$ , 即联合分布P(X,Y)与边缘分布P(X)P(Y)的相对熵 ↩︎
译者注（条件独立事件的推论）：若 X，Y关于事件Z条件独立，则有 $P (Y ∣ X, Z) = P (Y ∣ Z)$ 成立。证明过程： $P(Y|X,Z)=P(Y|X,Z)\frac{P(X|Z)}{P(X|Z)}=\frac{P(Y|X,Z)\frac{P(X,Z)}{P(Z)}}{P(X|Z)}=\frac{\frac{P(X,Y,Z)}{P(Z)}}{P(X|Z)}=\frac{P(X,Y|Z)}{P(X|Z)}=\frac{P(X|Z)P(Y|Z)}{P(X|Z)}=P(Y|Z)$ ↩︎

你可能感兴趣的:(序列数据,数据挖掘,机器学习)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
上半年居民消费榜出炉！这个城市的人最能花 BBM优选官方
上半年居民消费榜出炉哪个地方的人最能花钱？国家统计局公布的数据显示上海上半年居民人均可支配收入32612元居民人均消费支出21321元均为全国最高成为最能挣钱也最能花钱的城市1上海人均消费支出全国第一国家统计局公布的31省份居民人均消费支出数据显示，上海、北京、天津上半年居民人均消费支出排名前三。其中，上海上半年居民人均消费支出21321元，位居榜首。上海也是上半年全国仅有的居民人均消费支出突破2
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
营销活动-大转盘無缺520
写在前面最近，首先营销活动工具这块我是再熟悉不过了。曾经做了不下20个活动工具，然后通过监控活动数据反推活动的好坏。文中主要讲解幸运大转盘营销工具一.大转盘定义大转盘是比较常见的营销活动工具，它是通过消费者用户控制【开始/停止】操作获得奖品物品。用户在不知道自己能获得什么奖品的条件下，然后通过抽奖，大概率的获得未知的奖品。类似最近流行的盲盒玩法。二.为什么做大转盘大转盘是最常用的抽奖类的活动工具之
Java 队列 tryxr java 开发语言队列
队列一般用什么哪种结构实现队列的特性数据入队列时一定是从尾部插入吗数据出队列时一定是从头部删除吗队列的基本运算有什么队列支持随机访问吗队列的英文表示什么是队列队列从哪进、从哪出队列的进出顺序队列是用哪种结构实现的Queue和Deque有什么区别Queue接口的方法Queue中的add与offer的区别offer、poll、peek的模拟实现如何利用链表实现队列如何利用顺序表实现队列什么叫做双端队列
分支和循环（下） tryxr 服务器运维
写⼀个猜数字游戏游戏要求：1.电脑⾃动⽣成1~100的随机数2.玩家猜数字，猜数字的过程中，根据猜测数据的⼤⼩给出⼤了或⼩了的反馈，直到猜对，游戏结束1.随机数生成要想完成猜数字游戏，⾸先得产⽣随机数，那怎么产⽣随机数呢？randC语⾔提供了⼀个函数叫rand，这函数是可以⽣成随机数的，函数原型如下所⽰：intrand(void);rand函数会返回⼀个伪随机数，这个随机数的范围是在0~RAND_
5G-RAN与语义通信RAN 一去不复返的通信er 智简网络&语义通信 5G 人工智能语义通信
1️⃣RAN协议栈与TCP/IP五层协议栈的对应关系a.物理层（TCP/IP）↔PHY（RAN）对应关系：5GNRRAN的物理层直接对应TCP/IP的物理层。功能对比：TCP/IP物理层：负责比特流的物理传输，如通过电缆、光纤或无线介质传输信号。RAN物理层：处理无线信号的调制、编码、信道估计和传输（如OFDM、LDPC编码）。在5GNR中，物理层负责将数据映射到无线信道（如PDSCH、PUSCH
第二十二天（数据结构，无头节点的单项链表）肉夹馍不加青椒 c语言数据结构
线性表：一个线性表里面可以是任意的数据元素，但是同一个线性表里面数据应该是同类型的1存在一个/唯一被称为第一个节点的节点2存在一个/唯一被称为最后一个节点的节点3除了第一个以外，每一个元素都有一个前驱节点4除了最后一个，每一个元素都有一个后继节点满足以上性质，这个表就被称为线性表数组就是一个线性表想实现线性表的保存，我们需要考虑下面的事情1元素要保存2元素与元素之间的序偶关系谁是前面的谁是后面的我
2024微信红包封面序列号领取方法有哪些？（红包封面购买）帮忙赚赏金
2024微信红包封面序列号领取方法有哪些？（红包封面购买）红包封面领取微信搜索公众号：【艺间封面】千万红包封面等你领取2024微信红包封面免费序列号如何设置微信红包封面？1.打开微信，点击好友选择红包。2.单击红包封面。3.单击“添加红包封面”。4.输入接收序列号。来一波免费的微信红包封面序列号微信红包封面序列号红包封面领取微信搜索公众号：艺间封面千万红包封面等你领取微信红包封面序列号kGnkrb
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
mysql复习立夏的李子 mysql 数据库 database
mysqlselect语法selectfromjoinwheregroupbyhavingorderbylimit联合查询innerjoin（）leftjoin（以左表为基准，匹配右表，不匹配的返回左表，右表以null值填充）rightjoind··(去除列重复的数据)索引类型主键索引(PrimaryKey)唯一索引(Unique)常规索引(Index)全文索引(FullText)索引准则索引不是
DPDK 技术详解：榨干网络性能的“瑞士军刀”
你是否曾感觉，即使拥有顶级的服务器和万兆网卡，你的网络应用也总是“喂不饱”硬件，性能总差那么一口气？传统的网络处理方式，就像在高速公路上设置了太多的收费站和检查点，限制了数据包的“奔跑”速度。今天，我们要深入探讨一个能够打破这些瓶颈，让你的网络应用快到飞起的“黑科技”——DPDK(DataPlaneDevelopmentKit，数据平面开发套件)。这不仅仅是一个工具包，更是一种全新的网络处理哲学。
Pktgen-DPDK：开源网络测试工具的深度解析与应用艾古力斯
本文还有配套的精品资源，点击获取简介：Pktgen-DPDK是基于DPDK的高性能流量生成工具，适用于网络性能测试、硬件验证及协议栈开发。它支持多种网络协议，能够模拟高吞吐量的数据包发送。本项目通过利用DPDK的高速数据包处理能力，允许用户自定义数据包内容，并实现高效的数据包管理与传输。文章将指导如何安装DPDK、编译Pktgen、配置工具以及使用方法，最终帮助开发者和网络管理员深入理解并优化网络
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
办公党必备！Excel文件批量加密神器！一键保护你的重要数据阿幸软件杂货间 Excel excel
软件介绍今天推荐的这一款专为Excel文件设计的批量加密工具，能够帮助用户快速、高效地为多个Excel文件设置密码保护，有效防止数据泄露。软件特点本地化离线处理支持批量操作完全免费软件操作选择你需要加密的文件和路径，设置密码进行加密即可软件下载夸克网盘迅雷网盘UC网盘
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end