机器学习中常用的数据预处理方法

1. 数据清洗

  • 方法:处理异常值、重复数据、噪声数据。
    • 异常值处理:通过统计方法(如 Z-Score、IQR)或可视化检测,选择删除、替换(均值/中位数)或保留。
    • 重复数据:直接删除重复样本。
  • 优点:提升数据质量,减少模型偏差。
  • 缺点:可能误删有用信息或引入人为偏差。
  • 场景:金融风控(异常交易检测)、传感器数据清洗。

2. 特征缩放

  • 归一化(Min-Max Scaling)

    • 将数据缩放到 [0, 1] 区间。
    • 优点:加速梯度下降,适合对尺度敏感的模型(如神经网络、KNN)。
    • 缺点:对异常值敏感。
  • 标准化(Z-Score)

    • 使数据均值为 0,方差为 1。
    • 优点:对异常值稳健,适合大多数模型(如 SVM、线性回归)。
    • 缺点:不保证固定数值范围。

你可能感兴趣的:(机器学习,人工智能)