机器学习西瓜书笔记1

第一章 机器学习之绪论

目录

  • 第一章 机器学习之绪论
  • 一、引言
  • 二、基本术语
  • 三、假设空间
  • 四、归纳偏好
  • 五、发展历程


一、引言

机器学习就是致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

Mitchell给出了更形式化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

二、基本术语

收集一组西瓜数据,(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),……

数据集(data set):记录的集合。一般用 D = { x 1 , x 2 , … , x m } D=\lbrace x_1,x_2,\ldots,x_m\rbrace D={x1,x2,,xm}表示包含 m m m个示例的数据集
示例(instance)/样本(sample):数据集中每条记录是关于一个事件或对象的描述。每个示例 x i = ( x i 1 ; x i 2 ; … ; x i d ) x_i=(x_{i1};x_{i2};\ldots;x_{id}) xi=(xi1;xi2;;xid) d d d维样本空间 χ \chi χ中的一个向量, x i ∈ χ x_i\in\chi xiχ,其中 x i j x_{ij} xij x i x_i xi在第 j j j个属性上的取值, d d d称为样本 x i x_i xi的“维数”。
属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项,例如“色泽”。每个示例由 d d d个属性描述。
属性值(attribute value):属性上的取值,例如“青绿”…
属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间,例如把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间
特征向量(feature vector):由于空间中的每个点对应一个坐标向量,即每一个示例

学习(learning)/训练(training):从数据中学得模型的过程。该过程通过执行某个学习算法来完成
训练数据(training data):训练过程中使用的数据
训练样本(training sample):训练过程中每一个样本
训练集(training set):训练样本组成的集合
假设(hypothesis):学得模型对应了关于数据的某中潜在的规律
真相/真实(ground-truth):这种潜在规律自身
学习器(learner):学习过程就是为了找出或逼近真相。有时将模型称为学习器

标记(lable):关于示例结果的信息。例如“好瓜”,称为标记
样例(example):拥有了标记信息的示例。一般用 ( x i , y i ) (x_i,y_i) (xi,yi)表示第 i i i个样例,其中 y i ∈ Y y_i\in Y yiY是示例 x i x_i xi的标记, Y Y Y是所有标记的集合,即标记空间(label space)

根据预测值分类

  1. 分类(classification):预测的是离散值
  2. 回归(regression):预测的是连续值
  3. 聚类(clustering):预测的标签未知

根据训练数据是否有标记信息分类:

  1. 监督学习(supervised learning):有标记信息。如分类和回归
  2. 无监督学习(unsupervised learning):无标记信息。如聚类。

泛化:学得模型适用于新样本的能力

三、假设空间

归纳(induction):特殊到一般(泛化(generalization) )
演绎(deduction):一般到特殊(特化(specialization))
归纳学习(inductive learning):从样例中学习

  • 广义:大体上相当于从样例中学习
  • 狭义:要求从训练数据中学得概念,因此称为概念学习概念形成
    学习过程看作一个在所有假设组成的空间里搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能在训练集中的瓜判断正确的假设。

四、归纳偏好

归纳偏好(inductive bias)/偏好:机器学习算法在学习过程中对某些类型假设的偏好。解决“什么样的模型更好”的问题。
归纳偏好的作用:对有限个样本点组成的训练集,存在着很多条曲线与其一致,我们的学习算法必须有某种偏好,才能产出它认为“正确”的模型。
奥卡姆剃刀(Occarn’s razor):一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。

没有免费的午餐定理(No Free Lunch Theorem,简称NFL)

五、发展历程

1.20世纪50年代~70年代初,人工智能研究处于“推理期”。观点:只要能赋予机器逻辑推理能力,机器就能具有智能。代表性工作:“逻辑推理家”程序、“通用问题求解”程序等。
2. 20世纪70年代中期开始,人工智能研究进入了“知识期”。观点:机器自己学习。

• 基于神经网络的连接主义学习。代表性工作:感知机、Adaline。
• 基于逻辑表示的符号主义学习。代表性工作:结构学习系统、基于逻辑的归纳学习系统、概念学习系统等。
• 基于决策理论为基础的学习技术以及强化技术。代表性工作:学习机器等。

3.21世纪初,连接主义学习卷土重来,掀起了以“深度学习”为名的浪潮。深度学习狭义地说就是“很多层”的神经网络。

你可能感兴趣的:(机器学习,机器学习,笔记,人工智能)