邵奈一

大数据HCIE成神之路之特征工程——特征选择

特征选择

- 1.1 特征选择 - Filter方法
- - 1.1.1 实验任务
  - - 1.1.1.1 实验背景
    - 1.1.1.2 实验目标
    - 1.1.1.3 实验数据解析
    - 1.1.1.4 实验思路
  - 1.1.2 实验操作步骤
- 1.2 特征选择 - Wrapper方法
- - 1.2.1 实验任务
  - - 1.2.1.1 实验背景
    - 1.2.1.2 实验目标
    - 1.2.1.3 实验数据解析
    - 1.2.1.4 实验思路
  - 1.2.2 实验操作步骤
- 1.3 特征选择 - Embedding方法
- - 1.3.1 实验任务
  - - 1.3.1.1 实验背景
    - 1.3.1.2 实验目标
    - 1.3.1.3 实验数据解析
    - 1.3.1.4 实验思路
  - 1.3.2 实验操作步骤
  - - 1.3.2.1 基于线性回归模型方法
    - 1.3.2.2 基于L1的正则化方法
    - 1.3.2.3 基于随机森林的嵌入方法

1.1 特征选择 - Filter方法

1.1.1 实验任务

思考1：特征选择的定义是什么？

特征选择（feature selection）也被称为变量选择、属性选择或属性子集选择。它是为了构建模型而选择相关特征子集的过程。
特征选择是指从原始特征中挑选出一组最有代表性、分类性能好的特征。
没有确定的步骤，更多是工程上的经验和权衡，一般需要耗费较多的时间和精力，掌握常用的经验和权衡方法，可以极大提高挖掘建模的效率和效果。
给定不同的挖掘任务，需要的特征组合可能不同。

思考2：为什么要进行特征选择？
现实中大数据挖掘任务，往往特征属性过多，而一个普遍存在的事实是，大数据集带来的关键信息只聚集在部分或少数特征上，因此需要：

从中选择出重要的特征使得后续的建模过程只在一部分的特征上构建，减少维数灾难出现的可能。
去除不相关的特征，留下关键因素，降低学习任务难度，更容易挖掘数据本身带有的规律；同时在特征选择的过程中，会对数据特征的理解更加充分。

1.1.1.1 实验背景

Filter方法，即过滤法，指的是按照 发散性 或者 相关性 对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。是一种启发式方法，它的基本思想是：制定一个准则，用来衡量 每个特征对目标属性的重要性程度 ，以此来对所有特征/属性进行排序，或者进行优选操作，特征选择的过程和后续的学习器无关（区别另外两个方法)。常用的具体技术有下述四种： 方差选择法 、 相关系数法 、 卡方检验 、 互信息法 ，本小节主要围绕这四个方法的实践展开。

1.1.1.2 实验目标

利用开源的鸢尾花数据集分别完成Filter方法中的方差选择法、卡方检验方法、相关系数法、互信息法4个具体方法的练习。

1.1.1.3 实验数据解析

鸢尾花数据集来自开源网络，是数据挖掘练习中最常使用的学习数据集，分别有4个特征表征花的不同特点，目标变量target是3种不同的鸢尾花类型。4个特征分别是：sepal length (cm)（花萼长度）、sepal width (cm)（花萼宽度）、petal length (cm)（花瓣长度）、petal width(cm)（花瓣宽度）。目标变量target是三种鸢尾花：setosa（山鸢尾）、versicolor（杂色鸢尾）、virginica（维吉尼亚鸢尾）。

1.1.1.4 实验思路

通过python导入开源鸢尾花数据集，对数据进行简单解读和整合后，通过调用sklearn中的子模块中feature_selection的不同方法或函数分别对鸢尾花数据的特征进行 方差选择法 （调用VarianceThreshold方法），卡方检验法（调用 SelectKBest 函数），互信息法（调用 mutual_info_classif 函数），而相关系数法需单独调用scipy模块中的 stats.pearsonr() 函数直接计算。

1.1.2 实验操作步骤

步骤 1 导入相关模块和鸢尾花数据集模块

Python中sklearn模块的子模块datasets会直接提供该数据集。

import pandas as pd
from pandas import DataFrame as df
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

步骤 2 查看鸢尾花数据集

导入鸢尾花数据包，将 iris.data 部分定义为变量X，将 iris.target 定义为y，即目标变量。此代码中用到concat函数，该函数是在pandas包下的方法，可以将数据根据不同的轴作简单的融合，完整描述如下：

pd.concat( objs, axis=0, join='outer' ) ，主要参数说明objs: series，dataframe或者是panel构成的序列lsit，axis：需要合并链接的轴， 0是行，1是列 ，join：连接的方式 inner（取交集），或者outer（取并集）。

此处利用该函数将 输入特征 和 目标变量 定义为数据框形式（dataframe）后整合在一起，便于更直观地理解原始数据。代码如下：

iris = load_iris()
X, y = iris.data, iris.target
#以数据框形式查看数据，先定义一个数据框类型的变量
Iris_df=pd.concat([df(X,columns=iris.feature_names),df(y,columns=['target'])],axis=1)
# 随机按列查看数据框的 5 行
Iris_df.sample(5,axis=0)

将数据集写成DataFrame数据框形式输出结果如下：

上图可以看出，输入特征X有4个，均是 数值型特征 ，目标变量（ target ）有三类，分别用0、1、2表示。

步骤 3 利用 方差选择法 对数据集4个特征进行选择

设定阈值threshold为0.5，利用sklearn现有方法对原始4个特征的方差计算，然后筛选方差大于阈值的特征进行保留，代码如下：

from sklearn.feature_selection import VarianceThreshold
X_var=VarianceThreshold(threshold=0.5).fit_transform(X, y) #使用阈值0.5 进行选择
X_var[0:5]#输出方差选择后特征的前 5 行

此处选择sklearn中的子模块中feature_selection的类 VarianceThreshold(threshold=0.0) 实现方差选择法，该方法可以移除数据集中低方差的特征，只有一个参数threshold：float，选填，默认为0，表示指定删除训练集特征的方差的阈值，此处指定的阈值为0.5，即特征方差小于0.5的特征会被删除；VarianceThreshold( )还有一个属性variances_：可以输出样本集中每个特征的具体方差值。

输出结果如下：

array([[5.1, 1.4, 0.2],
       [4.9, 1.4, 0.2],
       [4.7, 1.3, 0.2],
       [4.6, 1.5, 0.2],
       [5. , 1.4, 0.2]])

此时继续执行

Iris_df.head(5)

输出结果如下：

通过上述输出结果对比可以发现，方差大于0.5的特征只有第 1、3、4 个特征，所以被保留下来，即利用方差选择法保留下的特征。

思考3：阈值一般取多少？
回答：阈值的选择取决于数据集和问题。方差选择法可以用于剔除低方差特征。阈值的设定需要综合考虑特征的方差分布、任务需求和模型性能。较高的阈值会保留方差较大的特征，而较低的阈值可能保留方差较小的特征。通过观察特征方差的分布情况，可以初步选择一个阈值，并进行实验和交叉验证来调整阈值，以找到最佳的性能和特征选择结果。需要注意的是，过高或过低的阈值可能导致信息损失或维度过高的问题。因此，阈值的选择是一个经验性的过程，需要根据具体情况进行调整和优化。

步骤 4 利用 相关系数法 对数据集4个特征进行选择

Scipy的 pearsonr方法 能够同时计算相关系数r值和p-value（简称p值）， p值越小，表示相关系数越显著。利用for循环分别对X中的每个特征与目标y计算相关系数值，代码如下：

from scipy import stats
for i in range(X.shape[1]):
    X_pear = stats.pearsonr(X[:,i], y)
    print(X_pear)

输出结果如下：

PearsonRResult(statistic=0.7825612318100814, pvalue=2.8904783526140384e-32)
PearsonRResult(statistic=-0.4266575607811244, pvalue=5.2015632551773126e-08)
PearsonRResult(statistic=0.9490346990083885, pvalue=4.2018731529627324e-76)
PearsonRResult(statistic=0.9565473328764029, pvalue=4.1553110153181703e-81)

解释：
X_pear 是一个 PearsonRResult 对象，其中包含了皮尔逊相关系数和 p 值的信息。

statistic=0.9565473328764029：这是特征与目标变量之间的皮尔逊相关系数。皮尔逊相关系数的取值范围为 -1 到 1，其中 1 表示完全正相关，-1 表示完全负相关，0 表示没有线性相关性。在这种情况下，相关系数为 0.9565473328764029，表示特征与目标变量之间具有很强的正相关关系。

pvalue=4.1553110153181703e-81：这是皮尔逊相关系数的 p 值。p 值是用来评估相关系数的显著性的指标。它表示在原假设为特征与目标变量之间不存在线性相关关系的情况下，观察到的相关系数或更极端的情况发生的概率。在这种情况下，p 值非常接近于 0，远小于通常使用的显著性水平（例如 0.05），表明相关系数是显著的，即特征与目标变量之间很可能存在着显著的线性相关关系。

如上分别输出了X中4个特征与y计算的相关系数r值和p值，可以看到第4个特征与目标y的相关值最大，即相关性最大，其p值为4.1554775794971695e-76，远小于0.05，表明该相关性关系是显著的。

步骤 5 利用 卡方检验法 选择最好的两个特征

SelectKBest 移除得分前 k 名以外的所有特征（取top k)，方法具体为：

sklearn.feature_selection.SelectKBest(score_func=<function f_classif>, k=10)，

主要参数如下：

score_func：可调用的评分函数，也就是此处选择的特征选择方法，如此处选择 卡方检验方法 ，其函数名称为chi2，并返回一对数组（得分，pvalues）或带有分数的单个数组。默认值为f_classif（适用于分类任务）。
k：int或“all”，可选，默认= 10，表示所选特征数。
主要属性为：
scores_：array-like，shape =（n_features，），即该特征在该特征选择方法下的得分；
pvalues_：array-like，shape =（n_features，），特征分数的p值，如果score_func仅返回分数，则为无。

此处设定score_func= chi2，即调用函数为卡方检验，设定保留特征数k=2，代码如下：

X_chi2 = SelectKBest(chi2, k=2).fit_transform(X, y)
X_chi2[0:4]

输出结果如下：

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2]])

与前面查看到的特征数据相比可发现，卡方检验保留的是第3个和第4个特征。

步骤 6 利用 互信息法 查看各个特征与目标变量相关性

互信息方法不需要事先指定参数，只需要选择方法 mutual_info_classif ，输入特征集和目标变量，就会计算出特征集X每个特征与目标y之间的互信息值大小，代码如下：

from sklearn.feature_selection import mutual_info_classif
X_mut = mutual_info_classif(X, y)
X_mut

输出结果如下：

array([0.5054192 , 0.26410863, 0.98610491, 0.98037258])

选择互信息值大的特征作为保留特征，可以从结果看出互信息最大的特征依次是第3个、第4个、第1个与第2个，可以再依据需要保留特征。

1.2 特征选择 - Wrapper方法

1.2.1 实验任务

1.2.1.1 实验背景

Wrapper，包装法，也形象地称为“弯刀法”，它解决思路没有过滤法直接，它是在确认后续的算法模型后，把模型本身的性能作为评价准则：选择一个目标函数来一步步的筛选特征。常用包装法是递归特征消除法，简称RFE，使用一个基模型来进行多轮训练，每轮训练后，移除若干权值系数的特征，再基于新的特征集进行下一轮训练。

1.2.1.2 实验目标

利用鸢尾花数据集完成Wrapper方法中递归特征消除法的练习，掌握RFE方法的思想和使用。

1.2.1.3 实验数据解析

鸢尾花数据集来自开源网络，是数据挖掘练习中最常使用的学习数据集，分别有4个特征表征花的不同特点，目标变量target是3种不同的鸢尾花类型。4个特征分别是：sepal length (cm)（花萼长度）、sepal width (cm)（花萼宽度）、petal length (cm)（花瓣长度）、petal width(cm)（花瓣宽度）。目标变量target是三种鸢尾花：setosa(山鸢尾）、versicolor（杂色鸢尾）、virginica（维吉尼亚鸢尾）。

1.2.1.4 实验思路

通过python导入开源鸢尾花数据集，对数据进行简单解读和整合后，调用sklearn中的子模块中feature_selection的 RFE方法 和sklearn中的子模块linear_model中的逻辑回归方法 LogisticRegressio() 作为后续调用的基模型，对鸢尾花数据的特征进行筛选，最后还打印出模型详情和关键参数，帮助读者充分掌握RFE方法的思想和使用。

1.2.2 实验操作步骤

步骤 1 导入RFE方法需要的相关模块和鸢尾花数据集，并查看数据前5行

调用sklearn中的子模块中feature_selection的RFE方法和sklearn中的子模块linear_model中的逻辑回归方法LogisticRegressio()作为后续调用的基模型，并对数据进行简单解读和整合。

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
# 利用开源数据 - 鸢尾花数据集进行特征选择
from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target
print(X.shape)
print(X[0:5])

输出结果如下：

(150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]

步骤 2 调用RFE方法，对鸢尾花数据集进行训练

训练后的模型，可以打印出模型和参数进行观察。

#RFE 方法的参数 estimator 表示选择的基模型，此处选用逻辑回归算法，特征保留 3 个。
x_rfe=RFE(estimator=LogisticRegression(), n_features_to_select=3).fit(X, y)
x_rfe

输出结果如下：

RFE(estimator=LogisticRegression(max_iter=1000), n_features_to_select=3)

结果可以看到调用模型的完整描述。

步骤 3 查看RFE方法的一些关键属性

print(x_rfe.n_features_ ) # 所选特征的数量
print(x_rfe.support_ ) # 按特征对应位置展示所选特征，True 表示保留，False 表示剔除。
print(x_rfe.ranking_ ) # 特征排名，使得 ranking_[i]对应于第 i 个特征的排名位置，1 表示最优特征。
print(x_rfe.estimator_ ) # 递归方法选择的基模型

输出结果如下：

3
[False  True  True  True]
[2 1 1 1]
LogisticRegression(max_iter=1000)

可以看到，该方法输出需要保留的3个特征分别是第2、3、4这三个，用的基础算法是 逻辑回归算法 ，在学习了其他有监督学习后，此处读者可以尝试调用其他有监督算法查看不同效果。

步骤 4 查看RFE方法训练后特征选择的结果

print(x_rfe.transform(X)[0:5])#显示前 5 行

输出结果如下：

[[3.5 1.4 0.2]
 [3.  1.4 0.2]
 [3.2 1.3 0.2]
 [3.1 1.5 0.2]
 [3.6 1.4 0.2]]

对比原始数据可以看出此结果保留的是第2、3、4三个特征。

1.3 特征选择 - Embedding方法

1.3.1 实验任务

1.3.1.1 实验背景

Embedded，即嵌入法，相比前两种方法更加复杂，它利用机器学习算法和模型进行训练，得到各个特征的 权值系数 ，根据权值系数从大到小来选择特征。常用嵌入法技术主要有两类方法： 线性模型 和 正则化 ，其中包括具体的练习有2个：基于线性回归模型方法、基于L1的正则化方法；另一类是基于树模型的特征选择，这里仅练习基于随机森林的嵌入方法，随机森林具有准确率高、稳定性强、易于使用等优点，是目前最流行的机器学习算法之一，基于随机森林的预测模型能够用来计算特征的重要程度，因此能用来去除不相关的特征。

1.3.1.2 实验目标

本小结的练习具体分3个任务，具体目标如下：

基于线性回归模型方法：该方法比较简单，强调理解，帮助读者理解后续的其他方法和直观的掌握嵌入法思想；
基于L1的正则化方法，该方法比较重要常用，也有一定难度，读者可以先在本节掌握其使用方法，在学习本系列课程的第5章无监督学习和第8章模型评估后，进一步掌握其思想和优缺点；
基于随机森林的嵌入方法，该方法重要且常用，读者可以先在本节掌握其使用方法，在学习本系列课程的第5章无监督学习后，进一步掌握其思想和优缺点。

1.3.1.3 实验数据解析

本小结的练习具体分3个任务，使用的数据解析如下：

基于线性回归模型方法：该部分的实验数据可以通过python中numpy库下的随机数生成模块random直接生成。利用随机函数 numpy.random.seed(num) ，随机生成一组服从正态分布且有3个特征的数据集进行建模；
基于L1的正则化方法和基于随机森林的嵌入方法均使用开源的波士顿房价数据集，通过调用 sklearn.datasets.load_boston 可加载相关数据。该数据集共有 506 个记录，13 个原始输入特征和1个目标变量。

13个特征的解释如下：

CRIM：城镇人均犯罪率。
ZN：住宅用地超过 25000 sq.ft的比例。
INDUS：城镇非零售商用土地的比例。
CHAS：查理斯河空变量（如果边界是河流，则为1；否则为0）。
NOX：一氧化氮浓度。
RM：住宅平均房间数。
AGE：1940年之前建成的自用房屋比例。
DIS：到波士顿五个中心区域的加权距离。
RAD：辐射性公路的接近指数。
TAX：每 10000 美元的全值财产税率。
PTRATIO：城镇师生比例。
B：1000（Bk-0.63）^ 2，其中 Bk 指代城镇中黑人的比例。
LSTAT：人口中地位低下者的比例。
MEDV：自住房的平均房价，以千美元计。

目标变量target表示房价。

1.3.1.4 实验思路

本小节练习分3个任务，是嵌入法常见的处理技术，各个任务的具体思路是：

基于线性回归模型方法：导入回归模型模块和随机数生成模块，生成随机数据，利用线性回归模型对生成的数据拟合，建立一个回归模型，通过打印模型的具体形式，观察线性回归各个自变量的系数，也就是每个特征的权重，数值越大的，对应的特征越应该被保留。
基于L1的正则化方法，直接通过sklearn导入开源的波士顿房价数据集和数据处理、建模模块，对房价数据的13个特征和目标变量进行整合，标准化后，直接调用 LASSO( ) 方法对处理后的数据进行建模，该方法的自带属性 coef_ 会输出建模过程中13个特征的对应系数，系数值越大，该特征对目标的重要性越大，越需要被保留。
基于随机森林的嵌入方法，依然使用波士顿房价数据，通过pandas，sklearn导入处理、建模模块，直接调用随机森林回归方法 RandomForestRegressor( ) 对数据进行建模，该方法的自带属性 feature_importances_ 会输出建模过程中13个特征的重要性评分，评分越高，表明该特征对目标的影响越大，越需要被保留。

1.3.2 实验操作步骤

1.3.2.1 基于线性回归模型方法

对于满足回归关系的数据分布，可以利用回归模型的系数来选择特征，原理是越重要的特征，在模型中对应的系数就会越大，而跟输出变量越是无关的特征，对应的系数就会越接近于0。

步骤 1 导入相关模块

导入linear_model模块内的LinearRegression方法，几个参数介绍如下（也可以通过help（LinearRegression）查看该方法的详细描述）：

fit_intercept：bool型，选择是否需要计算截距，默认为True，如果中心化了的数据可以选择false；normalize：bool型，选择是否需要标准化（中心化），默认为false，和参数fit_intercept有关；
copy_x：bool型，选择是否复制数据，默认True复制，如果输入False，可能会因为中心化把X数据覆盖；
n_job:int型，选择几核用于计算，默认1，-1表示全速运行。代码如下：

from sklearn.linear_model import LinearRegression
import numpy as np

步骤 2 随机生成实验数据

该部分的实验数据可以通过python中numpy库下的随机数生成模块random直接生成。

利用随机函数numpy.random.seed(num)，随机生成一组服从正态分布且有3个特征的数据集进行建模，其中numpy.random.seed(num)：如果使用相同的num，则每次生成的随机数都相同。如果不设置这个值，则系统根据时间来自己选择这个值，此时每次生成的随机数因时间差异而不同。

np.random.seed(0)
size = 5000
# 创建一个有 3 个特征的随机数据集
X = np.random.normal(0, 1, (size, 3))
#设定 Y = X0 + 2*X1 + noise
Y = X[:,0] + 2*X[:,1] + np.random.normal(0, 2, size)

查看生成数据。

print(X[0:5])
print(Y[0:5])

输出结果如下：

[[ 1.76405235  0.40015721  0.97873798]
 [ 2.2408932   1.86755799 -0.97727788]
 [ 0.95008842 -0.15135721 -0.10321885]
 [ 0.4105985   0.14404357  1.45427351]
 [ 0.76103773  0.12167502  0.44386323]]
以及，
[ 7.50433081  7.15004266 -0.14733131  1.56578492  2.00498194]

创建线性回归模型对数据进行拟合

lr = LinearRegression()
lr.fit(X, Y)

输出结果如下：

LinearRegression()

步骤 3 打印出建立好的回归模型公式

通过定义打印函数，可以打印出已经建立的回归模型函数，直观地观察每个特征的系数大小，然后保留系数大的值对应的特征。

def pretty_print_linear(coefs, names = None, sort = False):
    if names == None:
        names = ["X%s" % x for x in range(len(coefs))]
    lst = zip(coefs, names)
    if sort:
        lst = sorted(lst, key = lambda x:-np.abs(x[0]))
    return " + ".join("%s * %s" % (round(coef, 3), name) for coef, name in lst)
print("Linear model:", pretty_print_linear(lr.coef_))

输出结果如下：

Linear model: 0.984 * X0 + 1.995 * X1 + -0.041 * X2

可以看到，第2个特征X1的系数为1.995，是相对另外两个特征来说，对目标特征最重要的特征，最应该被保留下来。

1.3.2.2 基于L1的正则化方法

本小节旨在利用L1的正则化特征选择方法对波士顿房价数据集的13个特征进行选择。实验具体步骤如下：

步骤 1 导入相关模块

导入波士顿数据集所在模块，L1正则化所用到的方法LASSO，以及对数据集进行标准化处理的模块StandardScaler和数据框整合模块pandas. DataFrame。

from sklearn.datasets import load_boston #sklearn 自带的小型数据集包
from sklearn.linear_model import Lasso
from sklearn.preprocessing import StandardScaler
from pandas import DataFrame as df
import pandas as pd

步骤 2 导入模块自带的数据集

导入模块sklearn.datasets.load_boston自带的数据集，并且查看数据集特征和目标变量，形状和特征名称等特征信息。

boston = load_boston()
scaler = StandardScaler()
X = scaler.fit_transform(boston["data"])
Y = boston["target"]

#以数据框形式查看数据，先定义一个数据框类型的变量。

boston_df=pd.concat([df(X,columns=boston.feature_names),df(Y,columns=['target'])],axis=1)
# 随机按列查看数据框的 5 行
boston_df.sample(5,axis=0)

输出结果如下：

上图可以看出13个特征和目标变量均是数值型的类型。

步骤 3 导入L1正则化模型并训练数据

代码中调用的模型完整描述为：

class sklearn.linear_model.Lasso(alpha=1.0, fit_intercept=True, normalize=False, precompute=False, copy_X=True, max_iter=1000, tol=0.0001, warm_start=False, positive=False, random_state=None, selection=’cyclic’)

主要参数意义如下：

alpha：float，可选，即惩罚项前的系数，常数乘以L1项。默认为1.0。 alpha = 0相当于普通的最小二乘，由LinearRegression对象求解。不建议在Lasso对象中使用alpha = 0。
fit_intercept：boolean，optional，默认为True，是否计算此模型的截距。如果设置为False，则不会在计算中使用截距。
normalize：布尔值，可选，默认为False，当fit_intercept设置为False时，将忽略此参数。如果为True，则回归量X将在回归之前通过减去平均值并除以L2范数来归一化。如果希望标准化，需要在使用 normalize = False 的估算器调用fit之前 sklearn.preprocessing.StandardScaler 。

关键属性说明如下：

coef_：每个特征的系数值，也就是每个特征对目标影响的重要性，值越大越重要。

此处调用方法的操作如下，仅指定参数alpha，代码如下：

lasso = Lasso(alpha=1) # alpha 为 float 类型，可选，默认 1.0。当 alpha 为0 时算法等同于普通最小二乘法，不建议将 alpha 设为 0.
#训练数据
lasso.fit(X, Y)

输出模型如下：

Lasso(alpha=1)

可以看到该L1正则化模型正则项系数确实为1。

步骤 4 打印训练后模型各个特征系数

查看各特征变量对应系数，非零系数即为保留特征，系数值越大的特征越重要。

for i in range(X.shape[1]):
    print(boston.feature_names[i],format(lasso.coef_[i], '.3f'))

输出结果如下：

CRIM -0.000
ZN 0.000
INDUS -0.000
CHAS 0.000
NOX -0.000
RM 2.713
AGE -0.000
DIS -0.000
RAD -0.000
TAX -0.000
PTRATIO -1.344
B 0.181
LSTAT -3.543

可以看到非零特征有4个，可以保留这4个特征。如果希望增加保留的特征数，可以通过调整参数alpha的值，令alpha小于1的值进行调试。反之，可以看到很多特征的系数都是0。如果继续增加alpha的值，得到的模型就会越来越稀疏，即越来越多的特征系数会变成0。然而，L1正则化像非正则化线性模型一样也是不稳定的，如果特征集合中具有相关联的特征，当数据发生细微变化时也有可能导致很大的模型差异。

1.3.2.3 基于随机森林的嵌入方法

该节实验仍利用开源数据集：波士顿房价数据集。

步骤 1 调用相关模块

#使用 sklearn 的随机森林回归对波士顿房价集特征筛选
from sklearn.datasets import load_boston #sklearn 自带的小型数据集包
from sklearn.ensemble import RandomForestRegressor
from pandas import DataFrame as df
from sklearn.preprocessing import StandardScaler

步骤 2 导入模块自带的数据集并且定义好输入特征和目标特征。

boston = load_boston()
scaler = StandardScaler()
X = scaler.fit_transform(boston["data"])
y = boston["target"]

步骤 3 调用随机森林回归方法进行训练数据。

调用class sklearn.ensemble.RandomForestRegressor方法，随机森林回归方法的完整描述为：

class sklearn.ensemble.RandomForestRegressor ( n_estimators=’warn’, criterion=’mse’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False )

其中主要参数说明为如下：

n_estimators：整数，可选（默认= 10），即森林里的树木数量。在版本0.20中：n_estimators的默认值将从版本0.20中的10更改为版本0.22中的100。
criterion：衡量分裂质量的标准。支持的标准是均方误差的“mse”，等于作为特征选择标准的方差减少，以及平均绝对误差的“mae”。
max_depth：整数或无，可选（默认=无），树的最大深度。如果为None，则扩展节点直到所有叶子都是纯的或直到所有叶子包含少于min_samples_split样本。
min_samples_split：拆分内部节点所需的最小样本数：如果是int，则将min_samples_split视为最小数字。如果为float，则min_samples_split为分数，ceil（min_samples_split * n_samples）为每个分割的最小样本数。

主要的属性说明：

estimators_：DecisionTreeRegressor列表，拟合子估算器的集合。
feature_importances_：返回每个特征的重要性（数值越高，功能越重要）。
n_features_：执行时的特征数，此处为13。

在对波士顿房价数据集进行建模的操作中，先调用随机森林回归方法，指定相关参数，指定森林中树的个数是15，即n_estimators=15；每棵树的最大深度是6，即max_depth=6，再用该方法训练数据，输出波士顿房价数据集X中13个特征的重要性。调用代码如下：

# 调用随机森林回归方法
rf = RandomForestRegressor(n_estimators=15, max_depth=6)
# 调用方法训练数据
boston_rf=rf.fit(X, y)
# 查看模型的属性 feature_importances_，表示建模过程中对每个特征的重要性评分
for i in range(X.shape[1]):
    print(boston.feature_names[i],format(boston_rf.feature_importances_[i], '.3f')) #查看各特征重要性

输出结果如下：

CRIM 0.041
ZN 0.001
INDUS 0.002
CHAS 0.001
NOX 0.022
RM 0.435
AGE 0.009
DIS 0.056
RAD 0.003
TAX 0.012
PTRATIO 0.009
B 0.008
LSTAT 0.399

可以看到13个特征依次带着其重要性大小输出，在此模型中，最重要的4个特征依次是： RM 0.435 ， LSTAT 0.399 ， DIS 0.056 和 CRIM 0.041 。

利用随机森林方法进行特征选择，特征重要性的得分存在不稳定的现象，这不仅仅是随机森林特有的，大多数基于模型的特征选择方法都存在这个问题。可以通过调整参数，多次执行或者交叉验证获取一个较稳定的结果；或者尝试多种方法，将几种方法的结果对比考虑。

你可能感兴趣的:(数据挖掘,机器学习,HCIE之路,大数据,HCIE,数据挖掘)

Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
复杂工况下泵组的 “健康秘籍”：从监测到维护的全攻略缘华工业智维人工智能制造运维
在工业生产的宏大版图中，泵组堪称默默耕耘的“幕后英雄”，承担着流体输送的重任，如同人体循环系统中的血管，确保生产流程的顺畅运行。然而，泵组常常面临复杂工况的挑战，这犹如让它们在崎岖蜿蜒、障碍重重的道路上负重前行，对其健康状况构成诸多威胁。因此，深入了解复杂工况下泵组的运行状况，实施全面、科学的健康管理，对于保障生产的连续性与稳定性、控制运营成本，有着举足轻重的意义。复杂工况：泵组运行的“荆棘之路”
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
《蛤蟆先生去看心理医生》：承担责任2个好处，即促进学习和行动王明鹏
蛤蟆认识到自我进入成人状态的重大意义，这也是一条没有止境的探索和实践之路，自我成长之路。咨询师苍鹭给出了成人自我状态的解释，那就是承担责任，而且进一步说明担责的2个好处。成年人没有容易的生活，不动声色的冷静之下也在忍受压力，谈笑风生的背后也一样有焦虑，但是人家处理情绪的方式与一般人不同，这个最大不同就是面对、接受，即承担责任。担责带来好处，这个好处反过来又强化了担责的行动，这就是行为学习的解释和应
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
嘉峪关方特一日游一一丝绸之旅孟向阳
今天我给大家介绍一下，丝绸之旅。我们随着工作人员，带我们坐上了游览丝绸之旅的观光车。喇叭里开始讲解丝绸之路的故事。丝绸之路是亚洲各国共同历史和辉煌文明的见证，是亚洲人民历史文化自豪感的源泉。它运用高科技打造荒漠沙海、古城遗址、寒冰石窟、烈焰山洪等古代西域的神奇场景，将带领我们体验丝绸古道、大漠孤烟的雄壮与奇幻。感受西域人民纯真而朴实的生活。我们坐的观光车缓缓地走着，先是风沙四起的戈壁滩，黄沙满天。
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
《海纳百川》黄海川邱舒涵小说免费阅读【海纳百川TXT】完整版九月文楼
《海纳百川》黄海川邱舒涵小说免费阅读【海纳百川TXT】完整版主角：黄海川邱舒涵简介：这是一个草根逆袭的故事！小职员出身的黄海川，女友是富家千金，来自普通家庭的黄海川被女友的父母棒打鸳鸯，一次偶然的机遇，黄海川走上了传奇之路。可关注微信公众号【风车文楼】去回个书号【239】，即可免费阅读【海纳百川】全文黄海川也是为之默然，机关大院里面虽然是小道消息满天飞，但也不乏能从中截取一些有用的信息，有些小道消
Day 3 开启2020学习之路佳佳_797e
先记录和龙妞妞一起温习的第三篇诗歌江雪(柳宗元）千山鸟飞绝，万径人踪灭孤舟蓑笠翁，独钓寒江雪学习的力量，今天在没有任何领读提醒的情况下，她竟在自顾自地念前面两天学习的咏鹅和春晓，字字句句，朗朗上口，她那个小迷弟就呆萌般地望着姐姐笑，想跟着一起叫喊，却怎么都发不出这个音，望着这个画面，我在内心祈祷这诗歌的种子真的能够在他们的心里发芽，伴随他们成长…
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
OpenCloudOS 城市行·成都站圆满落幕，共探操作系统技术新未来！ CSDN资讯业界资讯资讯数据库人工智能
7月26日，由OpenCloudOS社区主办，海光信息战略合作的OpenCloudOS城市行・成都站活动在成都欧洲中心圆满举办，线上观看人次超3万。当前，数字化浪潮席卷全球各行各业，在国产化进程加速的背景下，操作系统的技术突破与生态构建不仅是保障信息安全的关键，更是推动产业升级、实现高质量发展的必由之路。然而，国产操作系统在性能优化、安全防护、多场景适配等方面仍面临诸多挑战，亟需产业链上下游协同创
解压神器思齐日思
原谅我大半夜的笑出猪叫声，最近偶尔会有焦虑，推荐您一个神奇的解压方法，亲测有效打开京东购物，app.小程序，都可以。别误会哈，我不会打广告的。就我这粉丝量，谁要找我打广告估计还不如在窗口喊两声好使。打开之后，我其实就想买个榨汁机，亮点来了，圈重点啊，打开评价详情，点开差评，差评，差评个个都是段子手啊，赶紧回去试试，解压神器，不客气哈不得不说，看到网友们的悲催售后之路我好久的焦虑症好多了
八路语旁集
期待已久的太阳仍旧没有出现，如同我的心情一样，阴云密布。这几天想了很多事，把自己的人生过滤了一遍，我的人生路和绝大多数人大相径庭，也就是说我不走寻常路。在读书的时候没有好好读书，在工作的时候没有好好工作，别人的必经之路我都没有走过，说是与众不同也只能是自嘲的一种方式。人的生活很多是由性格决定的。我的性格十分内向。在上学的时候从来就不敢向老师提问，不会也就不会了，从来就不会主动学习，每天就是应付老师
自己在家做甜品挣钱吗，女性一个人开蛋糕店怎么样配音就业圈
一、自己在家做甜品挣钱的方法有哪些现在很多人喜欢吃甜品，开启自己在家制作甜品的挣钱之路是一个不错的选择。有几种方法可以帮助你在家做甜品并获得利润：兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。1.制作个性化甜品礼盒：可以根据客户
CSDN原力榜42名-深圳区！全站14k名！我如何一周狂发14篇，篇篇爆款引爆社区，成为你“技术跃迁”的唯一选择？ small_wh1te_coder c 算法面试算法 c 面试职场和发展
一、数据不会说谎！我，就是CSDN深圳圈圳原力榜63名一路狂飙至44名，我们共同见证了硬核力量的爆发！这仅仅是个开始就在你们为我欢呼、为我点赞、为我收藏的同时，我并没有停下脚步！因为我深知，技术之路，逆水行舟，不进则退！真正的硬核，是永不停歇的探索，是持续不断的输出！现在，请睁大你的眼睛，看好了！这是我CSDN博客，在2025年7月14日至7月21日这一周，交出的“王炸”级答卷！数据不会说谎！这份
板料矫平机·极简小史
——从铁匠锤到硅芯片的“平整”之路0一句话开场人类花了两千年，只为把一块金属“压得服服帖帖”。1公元前200年：铁匠版“矫平”把烧红的铁板放在铁砧上，抡锤反复敲打。问题：厚度不均、表面坑洼、噪音大、体力透支。2公元1830年：水力三辊机工业革命把锤子换成三个大水轮驱动的辊子。优点：省力；缺点：只能矫厚板，薄板直接卷成麻花。31920年代：四重式诞生在上、下工作辊之外再加支承辊，像给筷子套上钢管——
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
怎样理解在新阶段以改革创新精神推进党的建设新的伟大工程大熊在友谊
首先，以改革创新精神全面推进党的建设新的伟大工程，是顺利完成党肩负的执政使命的现实需要。改革创新是当今时代精神的核心，也是增强党的创造力、凝聚力、战斗力的必由之路。中国特色社会主义事业是改革创新的事业。党领导的中国特色社会主义伟大事业，要靠党的建设新的伟大工程来保证。我们党作为领导中国特色社会主义伟大事业的马克思主义政党，要始终保持蓬勃生机和旺盛活力，始终成为中国特色社会主义事业的坚强领导核心，始
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。