吃瓜进行时(西瓜书&南瓜书啃读)

第一章 绪论

1.什么是机器学习(Machine Learning)

1)定义:研究如何通过计算的手段,利用经验来改善系统自身性能的学科。
2)主要研究内容:在计算机上从数据中产生模型的算法,即:学习算法(learning algorithm) 。
注:西瓜书中用“模型”泛指从数据中学得的结果。又称:学习器(learner,学习算法在给定数据和参数空间上的实例化)

2.常用基本术语

数据集(data set); 示例(instance)/样本(sample)/特征向量(feature vector) ;属性(attribute space)/特征(feature); 属性值(attribute value); 属性空间/ 样本空间;训练数据(training data ); 训练样本 ; 训练集 ;假设(hypothesis);标记(label);测试(test); 测试样本 ; 监督学习(supervised learning ,如分类 回归 ); 无监督学习(unsupervised learning, 如聚类);泛化能力(generalization);归纳学习(inductive learning); 版本空间(version space);归纳偏好(inductive bias) 。
注:
1)泛化能力指学得的模型适用于新样本的能力。
2)版本空间指可能有多个假设与训练集的情况是一致的,这多个假设构成的集合成为版本空间。
3)归纳偏好指算法在学习过程中对某种类型假设的偏好,这可能与生活经验,常识相关。
常用的偏好原则:“奥卡姆剃刀”(Occam’s razor)——就简原则。

第二章 模型评估与选择

一、基本术语

错误率(error rate) ; 精度(accuracy) ; 误差(error); 训练误差(training error)/ 经验误差(empirical error) ; 泛化误差(generalization error ) ; 过拟合/过配(overfitting ); 欠拟合(underfitting);
注:
1)泛化误差指学习器在新样本上的实际预测输出与其真实输出的差异。

二、基本概念

1.机器学习的目标:得到泛化误差最小的学习器,即对新样本的预测(拟合)效果好。但由于实际中新样本还是未知的,所以真实的泛化误差求不出;另外,由于训练样本存在过拟合现象,所以选用经验误差最小的学习器也不恰当; 因此,要寻找其他的一些模型评估的方法。

2.过拟合:学习器在训练样本上表现很好,在新样本上表现较差(泛化能力低;泛化误差大)。
【注】过拟合无法彻底避免,只能减小。

3.什么是模型选择: 选择用哪一种学习算法,哪一种参数配置(调参)。过程中,涉及模型评估。

4.**如何对模型进行评估:**用测试集上的测试误差作为泛化误差的近似,使得测试误差尽可能小。

5.为了达到模型评估目的,如何划分训练集S与测试集T ?
1)留出法(hold out):直接划分成2块。比如7:3。
注:用分层采样保持训练/测试集内部的数据分布一致性,减小偏差;重复多次随机划分取平均值,保持稳健性。
2)K折交叉验证法(k-fold cross validation):把数据集划分为K个大小近似的互斥子集,每次选出其中一个子集作为测试集,则可得到K次测试集结果的平均值。
注:结果也受随机划分方式的偏差影响,又有:p次k折交叉验证法;特例是留一法,即m个样本划分为m折,但计算会更冗杂。
3)自助法(bootstrapping):对于样本量为m的数据集D,有放回采样m次得到新数据集
D,将D作为训练集,D-D作为测试集。
注:要求m趋于无穷(非必要,比如m=30时,数据集较小,但样本在30次采样中始终不被采到的概率为0.3616,和m趋于无穷时的0.368很接近了) ; 适用于数据集较小,难以有效划分训练/测试集时。

6.性能度量——对模型泛化能力进行评估的评价标准:
1)回归问题中,常用均方误差:
均方误差公式,截取自西瓜书
2)分类问题中,常用有:错误率(error rate)、精度(accurary)、查准率(precision)、查全率(recall)。
还有:比较P-R曲线的形状or面积大小or平衡点(Break-Event Point)位置、宏查准率(macro-P)、宏查全率(macro-R)、宏F1(macro-F1)、微查准率(micro-P)、微查全率(micro-R)、微F1(micro-F1)。

三、易混淆点

1.错误率、精度、查全率(召回率)、查准率(准确率):
想象一个场景,某某连锁造型店门可罗雀,为了转变局势,走向造型店的店铺巅峰,使之门庭若市,店长推出了9.9元特价洗剪吹优惠活动,成功吸引来了200位用优惠券的顾客!于是,他们累并快乐着,满心欢喜这批新顾客被他们高超的剪艺、优雅的环境和帅气的小哥哥,漂亮的小姐姐们吸引,再次光顾(非打折),从而带来实质性的营业额增长。于是,他们预测:应该有100位顾客会再来,100位狠心离去吧?
3个月后,通过对顾客的信息统计发现,居然只有10位顾客再次光临,剩下190位顾客薅羊毛薅得十分彻底,竟不肯再留下一丝秀发。。。
吃瓜进行时(西瓜书&南瓜书啃读)_第1张图片
在此问题中,错误率为:(FN+FP)/200 = (110-2x)/ 200 ; 精度为: (90+2x)/ 200 ; 查全率为:R = TP / ( TP+FN ) = x / 10 ; 查准率为 :P =TP / ( TP+FP ) = x / 100 。
极端情形,如果预测所有200位顾客都会再次来剪头发消费,真实情况不变。那么TP (真实情况为再次消费, 且预测是正确的)= 10,FN=0 ,FP = 190 , TN = 0 ,此时查全率为100%, 但查准率仅有 5% 。从这个小例子也可以直观看出查全率与查准率之间有此消彼长的 大致抵抗趋势,难以时两者都很大,用平衡点这一性能度量来取一个相对最佳值 。

注1:机器学习中就不是人来预测了,而是训练好的学习器对新样本进行分类预测 ;表中 x 在具体案例中是对实际新样本整理得到的具体值。
注2:让我联想到了假设检验问题中的第一类错误与第二类错误之间的关系。

学习笔记小结:当我质疑机器学习的作用时,要记得奥巴马的机器学习团队在助力其当选总统过程中起到了功不可没的作用。目前只是我还没有领悟精髓,熟练运用而已。

参考书:周志华老师,《机器学习》

你可能感兴趣的:(学习心得,机器学习)