机器学习综述(考试整理的)

一 机器学习历史

  机器学习源自人工智能。早期的人工智能主要分为两个阶段:一个是逻辑推理,第二个阶段是专家系统。
  1 逻辑推理:主要通过数学符号的逻辑来模拟智能。
  2. 专家系统:利用各个领域的专家知识建立相应的知识库,利用专家经验知识完成推理和决策。
  3. 机器学习算法:在1980年之前,这些机器学习算法都是零碎化的,不成体系。从1980年开始,机器学习才真正成为一个独立的方向。在这之后,各种机器学习算法被大量的提出,得到了快速发展。决策树算法是1980年代到1990年代初期的重要成果,虽然简单,但可解释性强,这使得决策树至今在一些问题上仍被使用。

二 机器学习算法类型

  ①监督学习:是指在学习的过程当中,所有的数据样本都有对应的标签的机器学习过程。其中监督学习又分为分类和回归两种。
  分类:给定一个样本的值,输出该样本的类别。
  回归:给定一个样本的值,输出该样本对应的数值。
  ②无监督学习:是指在学习的过程当中,所有的数据样本都没有对应的标签的机器学习过程。其中聚类与LDA主题提取为目前的代表。
  ③半监督学习:就是指在学习的过程当中指在学习的过程当中只有一部分数据带有标签,这是一种基于监督学习和无监督学习的一种学习过程
  ④强化学习:

三 机器学习的四要素

  ①数据:机器学习就是解决数据的问题
  ②模型:根据先验知识以及数学知识建立对应的数学模型来解决问题。
  ③策略:我们建立好了模型以后就要训练模型,然而策略就决定了我们朝哪个方向训练模型,具体体现为损失函数的制定。
  ④优化方法:这个可以理解为③的具体求解过程。

四 线性回归

  回归(regression)问题是监督学习的一个重要问题。回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值野随之发生变化。回归模型正是表示从输入变量到输出变量之间映射的函数。
  线性回归是回归中的一种,它的Loss function可以表示为如下:在这里插入图片描述
  W就是回归函数:Y=w1x1+w2x2+…+wn*xn,其中W就是向量
(w1,w2,w3…w3),W通过直接求导可以算出
在这里插入图片描述

五 模型的过拟合和欠拟合问题

  (1)欠拟合:模型拟合程度不高,数据距离拟合曲线较远。具体的表现是在训练集上的效果都很差,也可被称作高偏差
  (2)过拟合:模型在训练集上面表现良好,但是在测试集上表现很差。就是或拟合过度了,也被叫做高方差。
  补充:
1偏差 (bias) 定义为模型的期望预测与真实值之间的差异。
2.方差 (variance) 定义为衡量模型对不同数据集的敏感程度
  具体的区别可以如下所示:
机器学习综述(考试整理的)_第1张图片
  由样本数据可见房价随之面积的增大而增大,且增大的趋势逐渐变小。下面是对每一张图片拟合情况的分析:
  ①拟合的曲线里数据样本点比较远,可见拟合得程度非常不够。所以属于欠拟合。
  ②可见拟合的曲线基本穿过数据样本点,且曲线的趋势和数据的趋势也差不多,所以这表示拟合得刚刚好
  ③拟合的曲线顺利经过了每个数据样本点,但是,这实际上是一条很扭曲的曲线,它不停上下波动,这不符合趋势,可见拟合过了头。所以属于过拟合
  (3)如何在训练中发现过拟合
  我们可以将初始数据集拆分为单独的训练和测试子集。如果模型在训练集上比在测试集中表现得好得多,那么我们很可能会过拟合
在这里插入图片描述
  (4)防止过拟合的方法
  ①增大数据:复杂的模型训练少量的数据就会过拟合。
  ②减少模型参数:让模型变得简单一点,不要拟合地太过了。
  ③正则化

六 交叉验证方法(一种模型效果的验证方法)

  交叉验证就是将初始训练数据拆分成多个数据集,使用这些拆分子集来调整模型
  例子:十折交叉验证过程:
  1.将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率。
  2. 10次的结果的正确率的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计

七 KNN算法

  k近邻算法是一种基本的分类算法:k-NN算法假设给定的训练集的实例类别已经确定,对于新来的实例,k-NN算法根据其k个最近邻的训练集实例的类别,通过多数表决等方式对新

你可能感兴趣的:(机器学习,机器学习,决策树,人工智能)