shifanfashi

数据预处理

预处理数预处理数据的方法总结（使用sklearn-preprocessing）

当我们拿到一批原始的数据

首先要明确有多少特征，哪些是连续的，哪些是类别的。
检查有没有缺失值，对确实的特征选择恰当方式进行弥补，使数据完整。
对连续的数值型特征进行标准化，使得均值为0，方差为1。
对类别型的特征进行one-hot编码。
将需要转换成类别型数据的连续型数据进行二值化。
为防止过拟合或者其他原因，选择是否要将数据进行正则化。
在对数据进行初探之后发现效果不佳，可以尝试使用多项式方法，寻找非线性的关系。
根据实际问题分析是否需要对特征进行相应的函数转换。

1. 标准化：去均值，方差规模化

Standardization标准化:将特征数据的分布调整成标准正太分布，也叫高斯分布，也就是使得数据的均值维0，方差为1.

标准化的原因在于如果有些特征的方差过大，则会主导目标函数从而使参数估计器无法正确地去学习其他特征。

标准化的过程为两步：去均值的中心化（均值变为0）；方差的规模化（方差变为1）。

在sklearn.preprocessing中提供了一个scale的方法，可以实现以上功能


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 预处理数据的方法总结（使用sklearn-preprocessing）
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn 
       
       
       
       import preprocessing
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       import numpy 
       
       
       
       as np
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 1. 标准化：去均值，方差规模化
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 创建一组特征数据，每一行表示一个样本，每一列表示一个特征
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # Standardization标准化:将特征数据的分布调整成标准正太分布，也叫高斯分布，也就是使得数据的均值维0，方差为1.
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 标准化的原因在于如果有些特征的方差过大，则会主导目标函数从而使参数估计器无法正确地去学习其他特征。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 标准化的过程为两步：去均值的中心化（均值变为0）；方差的规模化（方差变为1）。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 在sklearn.preprocessing中提供了一个scale的方法，可以实现以上功能。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x = np.array([[
       
       
       
       1., 
       
       
       
       -1., 
       
       
       
       2.],
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                     [
       
       
       
       2., 
       
       
       
       0., 
       
       
       
       0.],
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                     [
       
       
       
       0., 
       
       
       
       1., 
       
       
       
       -1.]])
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 将每一列特征标准化为标准正太分布，注意，标准化是针对每一列而言的
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x_scale = preprocessing.scale(x)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x_scale

x_scale.shape


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 可以查看标准化后的数据的均值与方差，已经变成0,1了
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # axis=0 表示对每一列
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x_scale.mean(axis=
       
       
       
       0)


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # axis=1表示对每一行去做这个操作，axis=0表示对每一列做相同的这个操作
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x_scale.mean(axis=
       
       
       
       1)


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 同理，看一下标准差
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x_scale.std(axis=
       
       
       
       0)

preprocessing这个模块还提供了一个实用类StandarScaler，它可以在训练数据集上做了标准转换操作之后，把相同的转换应用到测试训练集中。

这是相当好的一个功能。可以对训练数据，测试数据应用相同的转换，以后有新的数据进来也可以直接调用，不用再重新把数据放在一起再计算一次了。


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # preprocessing这个模块还提供了一个实用类StandarScaler，它可以在训练数据集上做了标准转换操作之后，把相同的转换应用到测试训练集中。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 这是相当好的一个功能。可以对训练数据，测试数据应用相同的转换，以后有新的数据进来也可以直接调用，不用再重新把数据放在一起再计算一次了。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 调用fit方法，根据已有的训练数据创建一个标准化的转换器
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 另外，StandardScaler()中可以传入两个参数：with_mean,with_std.这两个都是布尔型的参数，
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 默认情况下都是true,但也可以自定义成false.即不要均值中心化或者不要方差规模化为1.
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       scaler = preprocessing.StandardScaler().fit(x)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       scaler


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 使用上面这个转换器去转换训练数据x,调用transform方法
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       scaler.transform(x)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ########################################
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 好了，比如现在又来了一组新的样本，也想得到相同的转换
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       new_x = [[
       
       
       
       -1., 
       
       
       
       1., 
       
       
       
       0.]]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       scaler.transform(new_x)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ##################################


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # MinMaxScaler
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 在MinMaxScaler中是给定了一个明确的最大值与最小值。它的计算公式如下：
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # X_scaled = X_std / (max - min) + min
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 以下这个例子是将数据规与[0,1]之间，每个特征中的最小值变成了0，最大值变成了1，请看：
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       min_max_scaler = preprocessing.MinMaxScaler()
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x_minmax = min_max_scaler.fit_transform(x)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x_minmax
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ################################################################################
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 同样的，如果有新的测试数据进来，也想做同样的转换咋办呢？请看：
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x_test = np.
       
       
       
       array([[
       
       
       
       -3., 
       
       
       
       -1., 
       
       
       
       4.]])
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x_test_minmax = min_max_scaler.transform(x_test)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x_test_minmax
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ################################################################################

MaxAbsScaler

原理与上面的很像，只是数据会被规模化到[-1,1]之间。也就是特征中，所有数据都会除以最大值。这个方法对那些已经中心化均值维0或者稀疏的数据有意义。

1.2 规模化稀疏数据

如果对稀疏数据进行去均值的中心化就会破坏稀疏的数据结构。虽然如此，我们也可以找到方法去对稀疏的输入数据进行转换，特别是那些特征之间的数据规模不一样的数据。

MaxAbsScaler 和 maxabs_scale这两个方法是专门为稀疏数据的规模化所设计的。

1.3 规模化有异常值的数据

如果你的数据有许多异常值，那么使用数据的均值与方差去做标准化就不行了。

在这里，你可以使用robust_scale 和 RobustScaler这两个方法。它会根据中位数或者四分位数去中心化数据。

2 正则化Normalization

正则化是将样本在向量空间模型上的一个转换，经常被使用在分类与聚类中。

函数normalize 提供了一个快速有简单的方式在一个单向量上来实现这正则化的功能。正则化有l1,l2等，这些都可以用上：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 2 正则化Normalization
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 正则化是将样本在向量空间模型上的一个转换，经常被使用在分类与聚类中。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 函数normalize 提供了一个快速有简单的方式在一个单向量上来实现这正则化的功能。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 正则化有l1,l2等，这些都可以用上：
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x_normalized = preprocessing.normalize(x, norm=
       
       
       
       'l2')
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x_normalized
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ###############################################################################
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ###############################################################################

preprocessing这个模块还提供了一个实用类Normalizer,实用transform方法同样也可以对新的数据进行同样的转换


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # preprocessing这个模块还提供了一个实用类Normalizer,实用transform方法同样也可以对新的数据进行同样的转换
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 根据训练数据创建一个正则器
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       normalizer = preprocessing.Normalizer().fit(x)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       normalizer
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ####################################################################
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 对训练数据进行正则
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       normalizer.transform(x)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ###################################################################
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 对新的测试数据进行正则
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       normalizer.transform([[
       
       
       
       -1., 
       
       
       
       1., 
       
       
       
       0.]])
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # normalize和Normalizer都既可以用在密集数组也可以用在稀疏矩阵（scipy.sparse)中
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 对于稀疏的输入数据，它会被转变成维亚索的稀疏行表征（具体请见scipy.sparse.csr_matrix)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ###################################################################################

3 二值化–特征的二值化

特征的二值化是指将数值型的特征数据转换成布尔类型的值。可以使用实用类Binarizer。


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 3 二值化–特征的二值化
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 特征的二值化是指将数值型的特征数据转换成布尔类型的值。可以使用实用类Binarizer
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 默认是根据0来二值化，大于0的都标记为1，小于等于0的都标记为0。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn 
       
       
       
       import preprocessing
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       import numpy 
       
       
       
       as np
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 创建一组特征数据，每一行表示一个样本，每一列表示一个特征
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x = np.array([[
       
       
       
       1., 
       
       
       
       -1., 
       
       
       
       2.],
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                     [
       
       
       
       2., 
       
       
       
       0., 
       
       
       
       0.],
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                     [
       
       
       
       0., 
       
       
       
       1., 
       
       
       
       -1.]])
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       binarizer = preprocessing.Binarizer().fit(x)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       binarizer.transform(x)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       #################################################################################
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       #当然也可以自己设置这个阀值，只需传出参数threshold即可
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       binarizer = preprocessing.Binarizer(threshold=
       
       
       
       1.5)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       binarizer.transform(x)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ##########################################################################3

4 为类别特征编码

OneHotEncoder独热编码

学习sklearn和kagggle时遇到的问题，什么是独热编码？为什么要用独热编码？什么情况下可以用独热编码？以及和其他几种编码方式的区别。首先了解机器学习中的特征类别：连续型特征和离散型特征。拿到获取的原始特征，必须对每一特征分别进行归一化，比如，特征A的取值范围是[-1000,1000]，特征B的取值范围是[-1,1].如果使用logistic回归，w1*x1+w2*x2，因为x1的取值太大了，所以x2基本起不了作用。所以，必须进行特征的归一化，每个特征都单独进行归一化。对于连续性特征： Rescale bounded continuous features: All continuous input that are bounded, rescale them to [-1, 1] through x = (2x - max - min)/(max - min). 线性放缩到[-1,1] Standardize all continuous features: All continuous input should be standardized and by this I mean, for every continuous feature, compute its mean (u) and standard deviation (s) and do x = (x - u)/s. 放缩到均值为0，方差为1 Binarize categorical/discrete features: 对于离散的特征基本就是按照one-hot（独热）编码，该离散特征有多少取值，就用多少维来表示该特征。

数据挖掘OneHotEncoder独热编码和LabelEncoder标签编码

一. 什么是独热编码？

独热码，在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特，而且只有一个比特为1，其他全为0的一种码制。举例如下：假如有三种颜色特征：红、黄、蓝。在利用机器学习的算法时一般需要进行向量化或者数字化。那么你可能想令红=1，黄=2，蓝=3. 那么这样其实实现了标签编码，即给不同类别以标签。然而这意味着机器可能会学习到“红<黄<蓝”，但这并不是我们的让机器学习的本意，只是想让机器区分它们，并无大小比较之意。所以这时标签编码是不够的，需要进一步转换。因为有三种颜色状态，所以就有3个比特。

即红色：1 0 0 ，黄色: 0 1 0，蓝色：0 0 1 。如此一来每两个向量之间的距离都是根号2，在向量空间距离都相等，所以这样不会出现偏序性，基本不会影响基于向量空间度量算法的效果。

自然状态码为：000,001,010,011,100,101

独热编码为：000001,000010,000100,001000,010000,100000

来一个sklearn的例子：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn 
       
       
       
       import preprocessing
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc = preprocessing.OneHotEncoder()
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc.fit([[
       
       
       
       0, 
       
       
       
       0, 
       
       
       
       3], [
       
       
       
       1, 
       
       
       
       1, 
       
       
       
       0], [
       
       
       
       0, 
       
       
       
       2, 
       
       
       
       1], [
       
       
       
       1, 
       
       
       
       0, 
       
       
       
       2]])    
       
       
       
       # fit来学习编码
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc.transform([[
       
       
       
       0, 
       
       
       
       1, 
       
       
       
       3]]).toarray()    
       
       
       
       # 进行编码

输出：array([[ 1., 0., 0., 1., 0., 0., 0., 0., 1.]])

数据矩阵是4*3，即4个数据，3个特征维度。

0 0 3 观察左边的数据矩阵，第一列为第一个特征维度，有两种取值0\1. 所以对应编码方式为10 、01

1 1 0 同理，第二列为第二个特征维度，有三种取值0\1\2，所以对应编码方式为100、010、001

0 2 1 同理，第三列为第三个特征维度，有四中取值0\1\2\3，所以对应编码方式为1000、0100、0010、0001

1 0 2

再来看要进行编码的参数[0 , 1, 3]， 0作为第一个特征编码为10, 1作为第二个特征编码为010， 3作为第三个特征编码为0001. 故此编码结果为 1 0 0 1 0 0 0 0 1

二. 为什么要独热编码？

正如上文所言，独热编码（哑变量 dummy variable）是因为大部分算法是基于向量空间中的度量来进行计算的，为了使非偏序关系的变量取值不具有偏序性，并且到圆点是等距的。使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。

为什么特征向量要映射到欧式空间？

将离散特征通过one-hot编码映射到欧式空间，是因为，在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。

三 .独热编码优缺点

优点：独热编码解决了分类器不好处理属性数据的问题，在一定程度上也起到了扩充特征的作用。它的值只有0和1，不同的类型存储在垂直的空间。

缺点：当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。

四. 什么情况下(不)用独热编码？

用：独热编码用来解决类别型数据的离散值问题，

不用：将离散型特征进行one-hot编码的作用，是为了让距离计算更合理，但如果特征是离散的，并且不用one-hot编码就可以很合理的计算出距离，那么就没必要进行one-hot编码。有些基于树的算法在处理变量时，并不是基于向量空间度量，数值只是个类别符号，即没有偏序关系，所以不用进行独热编码。 Tree Model不太需要one-hot编码：对于决策树来说，one-hot的本质是增加树的深度。

总的来说，要是one hot encoding的类别数目不太多，建议优先考虑。

五. 什么情况下(不)需要归一化？

需要： 基于参数的模型或基于距离的模型，都是要进行特征的归一化。

不需要：基于树的方法是不需要进行特征的归一化，例如随机森林，bagging 和 boosting等。

我们知道特征可能是连续型的也可能是类别型的变量，比如说：

[“male”, “female”], [“from Europe”, “from US”, “from Asia”], [“uses Firefox”, “uses Chrome”, “uses Safari”, “uses Internet Explorer”].

这些类别特征无法直接进入模型，它们需要被转换成整数来表征，比如：

[“male”, “from US”, “uses Internet Explorer”] could be expressed as [0, 1, 3] while [“female”, “from Asia”, “uses Chrome”] would be [1, 2, 1].

然而上面这种表征的方式仍然不能直接为scikit-learn的模型所用，因为模型会把它们当成序列型的连续变量。

要想使得类别型的变量能最终被模型直接使用，可以使用one-of-k编码或者one-hot编码。这些都可以通过OneHotEncoder实现，它可以将有n种值的一个特征变成n个二元的特征。


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 4 为类别特征编码
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 我们知道特征可能是连续型的也可能是类别型的变量，比如说：
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # [“male”, “female”], [“from Europe”, “from US”, “from Asia”], [“uses Firefox”, “uses Chrome”, “uses Safari”, “uses Internet Explorer”].
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 这些类别特征无法直接进入模型，它们需要被转换成整数来表征，比如：
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # [“male”, “from US”, “uses Internet Explorer”] could be expressed as [0, 1, 3] while [“female”, “from Asia”, “uses Chrome”] would be [1, 2, 1].
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 然而上面这种表征的方式仍然不能直接为scikit-learn的模型所用，因为模型会把它们当成序列型的连续变量。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 要想使得类别型的变量能最终被模型直接使用，可以使用one-of-k编码或者one-hot编码。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 这些都可以通过OneHotEncoder实现，它可以将有n种值的一个特征变成n个二元的特征。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 特征1中有(0,1）两个值，特征2中有(0,1,2)3个值，特征3中有（0,1,2,3)4个值，所以编码之后总共有9个二元特征。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc = preprocessing.OneHotEncoder()
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc.fit([[
       
       
       
       0, 
       
       
       
       0, 
       
       
       
       3], [
       
       
       
       1, 
       
       
       
       1, 
       
       
       
       0], [
       
       
       
       0, 
       
       
       
       2, 
       
       
       
       1], [
       
       
       
       1, 
       
       
       
       0, 
       
       
       
       2]])
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc.transform([[
       
       
       
       0,
       
       
       
       1,
       
       
       
       3]]).toarray()
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ##########################################################################
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 但是呢，也会存在这样的情况，某些特征中可能对一些值有缺失，
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 比如明明有男女两个性别，样本数据中都是男性，这样就会默认被判别为我只有一类值。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 这个时候我们可以向OneHotEncoder传如参数n_values，用来指明每个特征中的值的总个数
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc = preprocessing.OneHotEncoder(n_values=[
       
       
       
       2,
       
       
       
       3,
       
       
       
       4])  
       
       
       
       # 指明每个特征中的值的总个数分别为 2 3 4
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc.fit([[
       
       
       
       1, 
       
       
       
       2, 
       
       
       
       3], [
       
       
       
       0, 
       
       
       
       2, 
       
       
       
       0]])
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc.transform([[
       
       
       
       1,
       
       
       
       0,
       
       
       
       0]]).toarray()
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       #############################################################################


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # one hot encoder 不仅对 label 可以进行编码，还可对 categorical feature 进行编码：
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn.preprocessing 
       
       
       
       import OneHotEncoder
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc = OneHotEncoder()
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc.fit([[
       
       
       
       0, 
       
       
       
       0, 
       
       
       
       3], [
       
       
       
       1, 
       
       
       
       1, 
       
       
       
       0], [
       
       
       
       0, 
       
       
       
       2, 
       
       
       
       1], [
       
       
       
       1, 
       
       
       
       0, 
       
       
       
       2]])  
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       #########################################################################
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 对象enc的n_values_成员变量，记录着每一个属性的最大取值数目
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 如第一个属性：0 1 0 1 ==> 2
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 如第二个属性：0 1 2 0 ==> 3
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 如第三个属性：3 0 1 2 ==> 4
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc.n_values_


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 对象
       
       
       
       enc的
       
       
       
       feature_indices_ 则记录对
       
       
       
       n_values_的累积值 不过
       
       
       
       feature_indices_的首位是0
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc
       
       
       
       .feature_indices_
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ###########################################################
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enc
       
       
       
       .transform(
       
       
       
       [[0, 1, 1]])
       
       
       
       .toarray()

数据矩阵是4*3，即4个数据，3个特征维度。

0 0 3 观察左边的数据矩阵，第一列为第一个特征维度，有两种取值0\1. 所以对应编码方式为10 、01

1 1 0 同理，第二列为第二个特征维度，有三种取值0\1\2，所以对应编码方式为100、010、001

0 2 1 同理，第三列为第三个特征维度，有四中取值0\1\2\3，所以对应编码方式为1000、0100、0010、0001

1 0 2

再来看要进行编码的参数[0 , 1, 1]， 0作为第一个特征编码为10, 1作为第二个特征编码为010， 3作为第三个特征编码为0001. 故此编码结果为 1 0 0 1 0 0100

5 弥补缺失数据

在scikit-learn的模型中都是假设输入的数据是数值型的，并且都是有意义的，如果有缺失数据是通过NAN，或者空值表示的话，就无法识别与计算了。

要弥补缺失值，可以使用均值，中位数，众数等等。Imputer这个类可以实现。请看：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 5 弥补缺失数据
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 在scikit-learn的模型中都是假设输入的数据是数值型的，并且都是有意义的，如果有缺失数据是通过NAN，或者空值表示的话，就无法识别与计算了。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 要弥补缺失值，可以使用均值，中位数，众数等等。Imputer这个类可以实现。请看：
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       import numpy 
       
       
       
       as np
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn.preprocessing 
       
       
       
       import Imputer
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       imp = Imputer(missing_values=
       
       
       
       'NaN', strategy=
       
       
       
       'mean', axis=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       imp.fit([[
       
       
       
       1, 
       
       
       
       2], [np.nan, 
       
       
       
       3], [
       
       
       
       7, 
       
       
       
       6]])


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x = [[np.nan, 2], [6, np.nan], [7, 6]]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       imp.transform(x)

Imputer类同样也可以支持稀疏矩阵,以下例子将0作为了缺失值，为其补上均值


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # Imputer类同样也可以支持稀疏矩阵,以下例子将0作为了缺失值，为其补上均值
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       import scipy.sparse 
       
       
       
       as sp
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 创建一个稀疏矩阵
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x = sp.csc_matrix([[
       
       
       
       1, 
       
       
       
       2], [
       
       
       
       0, 
       
       
       
       3], [
       
       
       
       7, 
       
       
       
       6]])
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       imp = Imputer(missing_values=
       
       
       
       0, strategy=
       
       
       
       'mean', verbose=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       imp.fit(x)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x_test = sp.csc_matrix([[
       
       
       
       0, 
       
       
       
       2], [
       
       
       
       6, 
       
       
       
       0], [
       
       
       
       7, 
       
       
       
       6]])
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       imp.transform(x_test)

6 创建多项式特征

有的时候线性的特征并不能做出美的模型，于是我们会去尝试非线性。非线性是建立在将特征进行多项式地展开上的。

比如将两个特征 (X_1, X_2)，它的平方展开式便转换成5个特征(1, X_1, X_2, X_1^2, X_1X_2, X_2^2). 代码案例如下：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 6 创建多项式特征
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 有的时候线性的特征并不能做出美的模型，于是我们会去尝试非线性。非线性是建立在将特征进行多项式地展开上的。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       import numpy 
       
       
       
       as np
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn.preprocessing 
       
       
       
       import PolynomialFeatures
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 自建一组3*2的样本
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x = np.arange(
       
       
       
       6).reshape(
       
       
       
       3, 
       
       
       
       2)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 创建2次方的多项式
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 比如将两个特征 (X_1, X_2)，它的平方展开式便转换成5个特征(1, X_1, X_2, X_1^2, X_1X_2, X_2^2). 代码案例如下：
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       poly = PolynomialFeatures(
       
       
       
       2)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       poly.fit_transform(x)


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 也可以自定义选择只要保留特征相乘的项。 
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 即将 (X_1, X_2, X_3) 转换成 (1, X_1, X_2, X_3, X_1X_2, X_1X_3, X_2X_3, X_1X_2X_3).
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x = np.arange(
       
       
       
       9).reshape(
       
       
       
       3, 
       
       
       
       3)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       poly = PolynomialFeatures(degree=
       
       
       
       3, interaction_only=
       
       
       
       True)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       poly.fit_transform(x)


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 7 自定义特征的转换函数
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 通俗的讲，就是把原始的特征放进一个函数中做转换，这个函数出来的值作为新的特征。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # 比如说将特征数据做log转换，做倒数转换等等。
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       # FunctionTransformer 可以实现这个功能
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       import numpy 
       
       
       
       as np
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn.preprocessing 
       
       
       
       import FunctionTransformer
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       transformer = FunctionTransformer(np.log1p)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       x = np.array([[
       
       
       
       0, 
       
       
       
       1], [
       
       
       
       2, 
       
       
       
       3]])
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       transformer.transform(x)

最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
写完作业的感觉很爽乡村算卦师
今天终于一口气把一个数据分析课的作业写完了。明天还要继续写一个，写完，就可以暂时轻松一下了。想想还是很开心的，哈哈哈。刚出去跑了一圈，结果下雨了，虽然不是很大，可是没办法跑，怕下大。现在在小区门口，吹吹风，也是极好的。希望一些都变的越来越好，加油！
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Amazon广告投放：如何精准筛选并添加关键词？新置元人工智能亚马逊广告 amazon
在亚马逊广告投放领域，关键词的选择是影响广告效果的核心要素之一。一个精准的关键词策略不仅能够提升广告的曝光度，还能确保产品能够被真正的目标受众看到，从而实现更高的转化率。然而，关键词的筛选并不是一个简单的操作，它需要结合数据分析、市场趋势和消费者行为模式进行科学的规划。一、关键词筛选的必要性：为什么精准匹配如此重要？1.提升广告投放的精准度关键词的精准度决定了广告是否能够投放给真正有购买意愿的用户
【数据分析】抓包工具的定义常见类型分类使用场景及注意事项
抓包工具的定义常见类型分类使用场景及注意事项-CSDN直播抓包工具的定义常见类型分类使用场景及注意事项抓包工具的定义常见类型分类使用场景及注意事项抓包工具概述抓包工具顾名思义是一种用于捕获并分析网络数据包的软件或硬件工具它能够在数据传输过程中截取并记录网络流量让用户能够深入理解并排查网络问题这类工具的用途广泛从网络安全测试到应用程序调试都离不开抓包工具的帮助在众多的抓包工具中WiresharkFi
构建高效的物流车辆定位管理系统体制教科书
本文还有配套的精品资源，点击获取简介：物流车辆定位管理系统利用信息技术提高物流效率和安全性。通过集成GPS技术进行实时车辆追踪和监控，它提供及时的货物运送和异常处理。系统的关键技术包括GPS车辆定位、C#编程语言、数据库管理、车辆管理、在途情况监控、预警与通知、数据分析与报告、用户界面设计、安全性与隐私保护以及系统集成。这些要素共同保障物流流程的高效、安全和智能化。1.物流车辆定位管理系统的应用与
# 【GEE基础及工具）（一）】工欲善其事，必先利其器：借助Open Earth Engine实现影像高效处理及批量任务执行遥感AI实战 GEE基础教程遥感 GEE 地理信息信息可视化 sentinel
在遥感数据分析与处理工作中，海量影像数据的预处理（如去云、裁剪）和分析（如均值计算）是支撑后续研究的核心环节。而Sentinel-2影像作为常用的遥感数据源，常因云层遮挡、数据量大等问题增加处理难度。同时，在使用GoogleEarthEngine（GEE）处理数据时，“批量导出任务需手动逐个启动”的问题也会显著降低效率。本文将从“工具优化”和“数据处理”两个维度展开，详细介绍如何通过GEE完成Se
Navicat 全面支持金仓数据库 KingbaseES，为金仓生态圈注入新动能 Navicat中国 Navicat 17 焕新上市 Navicat 免费版数据库
近日，我们宣布Navicat系列产品全面支持中电科金仓（北京）科技股份有限公司旗下金仓数据库管理系统KingbaseES。KingbaseES是面向全行业、全客户关键应用的企业级大型通用融合数据库产品，适用于事务处理类应用、数据分析类应用、海量时序数据采集检索类应用、要求苛刻的互联网等应用场景。这次合作，不仅是Navicat在数据库管理领域的又一重要里程碑，更凭借卓越的技术为金仓数据库的生态注入新
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
如何用Python才能进行数据分析？_运用pycharm做数据分析的步骤 2401_84254530 python 数据分析 pycharm
数据分析流程Python是数据分析利器，掌握了Python的编程基础后，就可以逐渐进入数据分析。一个完整的数据分析项目大致可分为以下五个流程：数据获取→数据存储→数据预处理→建模与分析→可视化分析1)数据获取一般有数据分析师岗位需求的公司都会有自己的数据库，数据分析师可以通过SQL查询语句来获取数据库中想要数据。Python已经具有连接sqlserver、mysql、orcale等主流数据库的接口
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python【一】Python全方位知识指南程序员_CLUB python 开发语言
目录背景：为什么Python成为开发者必备技能？‌‌一、Python是什么？‌‌二、Python能做什么？六大核心应用场景‌‌1.自动化办公‌‌2.网络爬虫‌‌3.数据分析‌‌三、零基础入门Python：环境搭建与学习路径‌‌1.环境搭建（Windows/Mac详细步骤）‌2‌.基础语法速成（7天掌握）‌四、实战项目推荐（*****）‌‌五、学习建议与避坑指南（新手常见错误）‌六、总结：**背景：
有人考过CDA数据分析师二级吗？ cda2024 数据分析数据挖掘 mysql
一、引言在当今数字化浪潮席卷各个行业的时代，数据成为了最宝贵的资产之一。无论是金融、电信、零售还是其他传统行业，都在积极寻求能够从海量数据中挖掘价值的专业人才。“有人考过CDA数据分析师二级吗？”这个问题不仅反映了人们对提升自身数据技能的渴望，也折射出市场对高水平数据分析师的需求日益增长。今天，我们就来聊聊这个话题。二、CDA数据分析师二级概述（一）认证的重要性首先得明确，CDA数据分析师二级可不
Python数据分析第一课：Anaconda的安装使用二狗的编程之路 Python数据分析 python 数据分析开发语言
Python数据分析第一课：Anaconda的安装使用1.Anaconda是什么？Anaconda是一个便捷的获取包，并且对包和环境进行管理的虚拟环境工具,Anaconda包括了conda、Python在内的超过180多个包和依赖项简单来说，Anaconda是包管理器和环境管理器2.Anaconda从何而来？Anaconda包括了Python和conda，我们从这这两个部分来叙述PythonPyt
数据分析概念和总结小小少年Boy
参考：什么是数据分析？总结：决策=数据+分析数据分析的框架：明确分析目标、数据收集、数据清理、数据分析、数据报告、执行与反馈数据分析与数据挖掘，前者偏向于业务分析，后者偏向于数据库算法，借助数据来指导决策数据分析的框架1.首先是数据分析的目的性极强区别于数据挖掘的找关联、分类、聚类，数据分析更倾向于解决现实中的问题。我想解决什么问题？通过这次的分析能让我产生什么决策？比如是否在某个高校举办一场活动
深度评测：拼多多官方返利APP vs 其他返利平台，谁更胜一筹？日常购物技巧呀
购物新宠儿！拼多多官方返利APP，引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中，高省app凭借其独特的优势脱颖而出，成为众多用户的
朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事
“朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事”咱们先聊个现实点的：你刷朋友圈、微博、抖音的时候，有没有发现一些账号的点赞数、评论数特别整齐划一？要么都是那种无意义的“支持”“666”，要么一夜之间视频播放量暴涨，看着就不太对劲。其实，这背后很可能就是数据欺诈，而且这种现象在社交媒体上特别常见。作为一个做大数据分析的人，我最直观的感受就是：社交媒体上的数据从来不是完全干净的，里面水分多得很。如
【Python】pandas.cut()函数的用法
pandas.cut()函数是一个非常有用的工具，用于将数值型数据按照指定的分箱或区间进行分割，从而将连续的数值变量转换为离散的类别变量。这在数据分析和机器学习的特征工程中尤其有用，因为它可以帮助揭示不同区间内的数据分布特征，或者简化模型的输入。基本用法pandas.cut()的基本语法如下：pandas.cut(x,bins,right=True,labels=None,retbins=Fals
基于Python的酒店订单数据分析与可视化实战不若浮生一梦 python作业 python 数据分析开发语言
本文将通过一个酒店订单数据集，展示如何使用Python进行完整的数据分析流程，包括数据清洗、特征工程、探索性分析、可视化以及业务洞察，适合数据分析初学者或想通过项目提升数据思维的开发者。一、项目背景随着旅游业的迅速发展，酒店运营者越来越依赖数据分析来提升客户体验与优化收益管理。本项目基于某国际连锁酒店集团提供的真实订单数据，包含超过10万条记录，涵盖订单类型、顾客行为、取消情况等多个维度。目标是通
2025年最值得推荐的10款开源数据库管理工具全解析 ivwdcwso 运维与云原生开源数据库管理工具运维管理
在数据驱动的时代，数据库管理工具已成为开发者、数据分析师和运维工程师的必备利器。随着技术的快速发展，2025年的数据库管理工具市场涌现出许多强大而高效的开源解决方案。本文将为您详细介绍10款在2025年表现突出的开源数据库管理工具，帮助您选择最适合自己需求的工具。一、2025年数据库管理工具的新趋势在介绍具体工具前，让我们先了解2025年数据库管理工具的几个关键发展趋势：AI增强功能：越来越多的工
Python Pandas.cut函数解析与实战教程皓月照山川 pandas python pandas 开发语言
PythonPandas.cut函数解析与实战教程摘要pandas.cut是数据分析工具库Pandas中一个极其强大且常用的函数。它的核心功能是将连续的数值型数据根据指定的间断点（bins）进行分割，转换成离散化的区间类别（categoricaldata）。这种操作在数据预处理、特征工程和数据可视化中至关重要，例如，将用户的年龄分段、将考试分数评级、或将销售额划分为不同的等级。本文章将从基础用法到
实践篇：构建基于LLM与本地Pandas的混合式数据分析引擎超人阿亚 pandas 数据分析数据挖掘
公众号：dify实验室基于LLMOps平台-Dify的一站式学习平台。包含不限于：Dify工作流案例、DSL文件分享、模型接入、Dify交流讨论等各类资源分享。在上一篇《思路探索：当大型语言模型遇见数据分析的现实挑战》中，我们阐述了团队确立的技术路线：利用大型语言模型（LLM）作为自然语言到代码的“翻译器”，并结合PythonPandas库作为后端的高性能“计算核心”。本文将从工程实践的角度，详细
【tower】Rust tower库原理详解以及axum限流实战景天科技苑 Rust语言通关之路 rust 开发语言后端 tower rust tower axum限流
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Rust开发，Python全栈，Golang开发，云原生开发，PyQt5和Tkinter桌面开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django
数据赋能（335）——技术平台——技术赋能 lh1793 数据
概述技术赋能原则在数据赋能中占据核心地位。它确保了数据分析、处理和应用过程中的高效、准确和可靠，为业务决策提供了坚实的技术基础。原则定义数据技术赋能原则：在组织运营和业务决策中，以数据技术为核心，通过数据收集、分析、处理和应用，推动业务创新、优化运营和提升决策质量以下是数据技术赋能原则的具体分点表示：战略对齐：数据技术的应用应与组织的战略目标紧密对齐，确保技术投资能够直接支持业务增长和竞争优势的建
思路探索：当大型语言模型遇见数据分析的现实挑战
大家好，我是dify实验室的阿亚。近期，我们团队启动了一项旨在简化数据分析流程的探索性项目。我们的目标是构建一个能够通过自然语言进行交互的数据分析工具，让业务人员无需编写复杂的查询语句，仅通过提问即可获取数据洞察。然而，在将这一构想付诸实践的过程中，我们遇到了一系列预料之外的挑战。本文旨在记录我们的探索路径与思考沉淀。一、第一阶段探索：直接利用大模型进行数据分析项目初期，我们最直接的设想是利用大型
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&