特征工程的方法和步骤

目录

  • 0.示意图
  • 1.特征类别
    • 1.1.类别特征
    • 1.2.数值特征
    • 1.3.时间特征
    • 1.4.空间特征
    • 1.5.自然语言处理
    • 1.6.深度学习/神经网络
    • 1.7.图特征
    • 1.7.Leakage
    • 1.8.统计聚合
    • 1.9.自动化特征工程
  • 2.数据预处理
    • 2.1.无量纲化方法
    • 2.2.归一化
    • 2.3.定性特征One-hot/哑编码
      • 2.4.定量特征二值化
      • 2.5.缺失值填充
      • 2.6.数据变换
  • 3.特征选择
    • 3.1.Filter过滤法
      • 3.1.1.方差选择法
      • 3.1.2.相关系数法
      • 3.1.3.卡方检验
      • 3.1.4.互信息法
    • 3.2.Wrapper包装法
      • 3.2.1.递归特征消除法
    • 3.3.Embedded嵌入法
      • 3.3.1.基于惩罚项
  • 4.特征降维
    • 4.1.正则化
    • 4.2.主成分分析法(PCA)
    • 4.3.线性判别分析(LDA)
  • 5.特征衍生
    • 5.1.特征扩展
    • 5.2.特征组合
  • 再来一个示意图
  • 参考

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

0.示意图

特征工程的方法和步骤_第1张图片
原图

1.特征类别

1.1.类别特征

  • one-hot encoding
  • hash encoding
  • label encoding
  • count encoding
  • label-count encoding
  • target encoding
  • category embedding
  • Nan encoding
  • polynomial encoding
  • expansion encoding
  • consolidation encoding

1.2.数值特征

  • rounding
  • binning
  • scaling
  • imputation
  • interactions
  • no linear encoding
  • row statistics

1.3.时间特征

1.4.空间特征

1.5.自然语言处理

1.6.深度学习/神经网络

1.7.图特征

1.7.Leakage

1.8.统计聚合

1.9.自动化特征工程

2.数据预处理

利用Sklearn的preprocessing库。

2.1.无量纲化方法

  • 标准化:转换成标准正态分布 x ′ = x − X ‾ S x'=\frac{x-{\overline X}}{S} x=SxX
from sklearn.preprocessing import StandardScaler
  • 区间缩放法:
    如: x ′ = x − m i n m a x − m i n x'=\frac{x-{min}}{max-min} x=maxminxmi

你可能感兴趣的:(#,deep_learning,python,算法,机器学习,人工智能,深度学习,python)