机器学习知识点复习 上(保研、复试、面试)百面机器学习笔记

机器学习知识点复习上

  • 一、特征工程
    • 1. 为什么需要对数值类型的特征做归一化?
    • 2. 文本表示模型
    • 3. 图像数据不足的处理方法
  • 二、模型评估
    • 1.常见的评估指标
    • 2.ROC曲线
    • 3.为什么在一些场景中要使用余弦相似度而不是欧氏距离?
    • 4.过拟合和欠拟合
  • 三、经典算法
    • 1.支持向量机SVM
    • 2.逻辑回归
    • 3.决策树
  • 四、降维
    • 1.主成分分析( Prinal Components Analysis, PCA )降维中最经典的方法
    • 2.线性判别分析LDA(有监督,对数据降维)

一、特征工程

1. 为什么需要对数值类型的特征做归一化?

(1)对数值类型的特征做归一化可以将所有的特征都统一到个大致相同的数值区间内;
(2)可以加快梯度下降收敛的速度,归一化后让等高线的分布更加均匀在一个范围内,类似于一个圆,减少求解过程中参数寻优的震荡,更加快找到最优解。
机器学习知识点复习 上(保研、复试、面试)百面机器学习笔记_第1张图片

2. 文本表示模型

  • 词袋模型( Bag of Words,把每篇文章看成一袋子词,忽略顺序,用频率估量单词重要性) ;
  • TF-IDF (Term Frequency-Inverse Document Frequency );
  • 主题模型( Topic Model ,从文本库中发现有代表性的主题,计算主题分布);
  • 词嵌入模型( Word Embedding ,是将每个词都映射成低维空间上的K维向量) Word2Vec 是目前最常用的词嵌入模型之 一。Word2Vec 实际是一种浅层的神经网络模型, 有两种网络结构,分别是 CBOW (Continues Bag of Words )和 Skip-gram。

3. 图像数据不足的处理方法

(1)一定程度内的随机旋转、平移、缩版、裁剪、填充、左右翻转等,这些变换对应着同个目标在不同角度的观察结果。
(2)对图像中的像素添加躁声扰动,比如椒盐噪声、高斯白噪声等。
(3)颜色变换。
(4)改变图像的亮度、清晰度、对比度、锐度等。
机器学习知识点复习 上(保研、复试、面试)百面机器学习笔记_第2张图片

二、模型评估

1.常见的评估指标

准确率( Accuracy ),精确率( Precision ),召回率( Recall ),均方根误差(Root Mean Square Error, RMSE)。F1 score ROC 曲线也能综合地反映一个排序模型的性能。
F1 score 是精准率和召回率的调和平均值
在这里插入图片描述

RMSE 能够很好地反映回归模型预测值与真实值的偏离程度。但在实际问题中,如果存在个别偏离程度非常大的离群点( Outlier )时,即使离群点数 非常少,也会让 RMSE 指标变得很差。可以使用平均绝对百分比误差( Mean Absolute Percent Error, MAPE)相比 RMSE, MAPE 相当于把每个点的误差进行了归一化,降低了个别离群点带来的绝对误差的影响。
机器学习知识点复习 上(保研、复试、面试)百面机器学习笔记_第3张图片

你可能感兴趣的:(机器学习知识点复习 上(保研、复试、面试)百面机器学习笔记)