1.机器学习--致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算中,“经验”通常以“数据”形式存在。
2.机器学习所研究的主要内容--学习算法(learning algorithm)[从数据中产生“模型”的算法]
有了学习算法,我们把经验数据提供给计算机,它就能基于这些数据产生模型,在面对新的情况时,模型会给我们提供相应的判断。(类比人类的经验判断,人类可以通过西瓜色泽、根蒂、敲声等特征,也就是平时积累的经验,判断出新西瓜是否成熟、是否甜等)
3.基本术语
A.数据集--多条记录的集合。每条记录(样本/示例)是关于一个事件或对象的描述。
B.属性/特征--反映事件或对象在某方面的表现或性质的事项。属性上的取值称为”属性值“,属性张成的空间称为”属性空间/样本空间/输入空间“。
C.学习/训练--从数据中学得模型的过程称为“学习”或“训练”。这个过程通过执行某个学习算法来完成,训练过程中使用的数据称为“训练数据“。其中每个样本称为一个”训练样本“,训练样本组成的集合称为”训练集“。
D.假设/真相--学得模型对应了关于数据的某种潜在的规律,称为”假设“。这种潜在规律自身则称为”真相“或”真实“。学习过程就是为了找出或逼近真相。
E.标记/样例--关于示例结果的信息称为“标记”,拥有了标记信息的示例称为“样例”。一般地,用(xi,yi)表示第i个样例,其中yi属于Y是示例 xi 的标记,Y是所有标记的集合,亦称"标记空间" 或“输出空间”。
F.分类/回归--若我们欲预测的是离散值,此类学习任务称为“分类”。若欲预测的是连续值,此类学习任务称为“回归”。
1)对只涉及两个类别的“二分类”任务,通常称其中一个类为“正类”,另一个类为“反类”。涉及多个类别时,则称为“多分类”任务。
2)一般地,预测任务是希望通过对训练集进行学习,建立一个从输入空间X到输出空间Y的映射。
3)对二分类任务,通常令 Y = {-1,十1} 或 {O, l}; 对多分类任务, IYI >2; 对回归任务, Y= R,R为实数集。
G.测试--学得模型后,使用其进行预测的过程称为“测试”。被测试的样本称为“测试样本”。
H.聚类--将训练集中的数据分成若干组,每个组称为一个“簇”,这些自动形成的簇可能对应一些潜在的概念划分。在聚类学习过程中使用的训练样本通常不拥有标记信息。
I.监督学习/无监督学习--根据训练数据是否拥有标记信息,学习任务可以划分为两大类。
1)若学习任务的训练数据拥有标记信息,称为“监督学习”,例如分类与回归。
2)若学习任务的训练数据没有拥有标记信息,称为“无监督学习”,例如聚类。
J.泛化--学得模型适用于新样本的能力,称为“泛化”能力。具有强泛化能力的模型能很好地适用于整个样本空间。
4.假设空间
我们可以把学习过程看作是一个在所有假设组成的空间中进心搜索的过程,搜索目标是找到与训练集“匹配”的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。可以有许多策略对这个假设空间进行搜索,例如自顶向下、从一般到特殊、自底向上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假设,或与反例一致的假设,最终将会获得与训练集一致(即:对所有训练样本能够进行正确判断)的假设,这就是我们学习所得的结果。
**注意:现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能存在多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,称为“版本空间”。
5.归纳偏好--机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”,简称为“偏好”。
1)任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,用于引导算法确立“正确的”偏好,即“若有多个假设与观察一致,则选最简单的那个”,但该原则并非唯一可行的原则。
2)归纳偏好对应了学习算法本身所作出的关于“什么样的模型更好”的假设,在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
3)“没有免费的午餐”定理(NFL)--当所有“问题”出现的机会相同、或所有问题同等重要时,无论学习算法多聪明、或者多笨拙,它们的期望性相同。
6.其他补充
A.“从样例中学习”的一大主流是符号主义学习,其代表包括决策树(decision tree)和基于逻辑的学习。
1)典型的决策树学习以信息论为基础,以信息熵的最小化为目标,直接模拟了人类对概念进行判定的树形流程。该方式简单易用。
2)基于逻辑的学习的著名代表是归纳逻辑程序设计(ILP),可看作机器学习与逻辑程序设计的交叉,它使用一阶逻辑(谓词逻辑)来进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳。该方式可以较为容易地表达出复杂数据关系,有很强的知识表示能力,领域知识通常可方便地通过逻辑表达式进行描述。
B.“从样例中学习”另一主流技术是基于神经网络的连接主义学习,连接主义学习最大的局限是其“试错性”。深度学习,即很多层的神经网络。
C.“统计学习”--代表性技术是支持向量机(SVM)以及更一般的“核方法”