机器学习(九)归纳总结DLC

一、机器学习的概念

机器学习的三要素:模型、学习准则、优化算法

        1.模型

                模型分为线性和非线性

                        线性:f(x;\theta)=\omega^Tx+b        其中\omega,x均为向量

                        非线性:f(x;\theta)=\omega^T\phi (x)+b       \phi (x)为多个非线性基函数的组合

                神经网络h(x)即可视为\phi (x),包含权重向量\omega偏置b

        2.学习准则

                一个好的模型可以使得对于给定的x来说,预测的y与真实映射一致;所以其误差描述为:|f(x,\theta^*)-y|<\varepsilon,即其对于真实概率分布P_r(y|x)误差为:|f_y(x,\theta^*)-P_r(y|x)|<\varepsilon

                模型的好坏可通过期望风险R(\theta)来表示R(\theta)=E_{(x,y)~P_r(x,y)}[L(y,f(x;\theta))]

                但实际上期望风险是无法计算的,一般以经验风险代替它,即训练集上的平均损失为:

                        R^{emp}_D(\theta)=\frac{1}{N}\sum L(y,f(x;\theta))        使经验风险最小化即机器学习的目标。

                为了对抗过拟合,可以在经验风险最小化的基础上使用正则化,其目的是限制模型的能力。转换为公式为:

                \sigma^*=arg_\theta min R^{emp}_D(\theta)+\frac{1}{2}\lambda ||\theta||^2        ||\theta||l2范数正则化项\lambda用于控制正则化强度。

                        Tips.范数

L0范数 非0元素之和 比较难计算
L1范数 元素绝对值之和 可以进行特征选择 会产生稀疏
L2范数 元素平方和再开平方根 可以防止过拟合,提升模型泛化能力 不会产生稀疏

                几种常见的损失函数

                        0-1损失函数:预测准确=0,预测不准=1

                        平方损失函数=\frac{1}{2}(y-f(x;\theta))^2

                        交叉熵损失函数=y^Tlogf(x;\theta)

                        Hinge损失函数=max(0,1-yf(x;\theta))

        3.优化算法

                超参数:用来定义模型结构/优化策略,这类参数比较难用算法优化。

                梯度下降:最常见,最简单的优化算法,其可以通过迭代计算训练集D上的风险函数最小值:\theta_{t+1}=\theta_t-\alpha\frac{1}{N}\sum\frac{\partial L(y^{(n)},f(x^{(n)};\theta))}{\partial \theta}        \alpha称学习率。

                其推导过程如下:

机器学习(九)归纳总结DLC_第1张图片

                 提前停止:防止过拟合,在验证集上错误率下降都某种程度后需要提前终止训练。

机器学习(九)归纳总结DLC_第2张图片

                 随机梯度下降:区别于批量梯度下降(将整个训练集作用于风险函数),每次迭代仅计算仅采集一个样本

                下批量梯度下降:每次计算取一部分样本

二、线性回归

        线性回归的模型可以表述为:f(x;\omega ,b)=\omega^Tx+b        \omega^T权重向量,x为特征向量

                可以简化为f(x;\widehat{\omega})=\widehat{\omega}^T\widehat{x}        将偏置整合进\omega,x中(进行增广)

优化方法

        经验风险最小化风险函数可以理解为求预测值真实值之间的标准差。

                        R(\omega)=\frac{1}{2}\sum(y^{(n)}-y_{pred}^{(n)})=\frac{1}{2}||y-X^Tx^{(n)}||^2

                对其求偏导且令其=0,0=\frac{\partial R(w)}{\partial \omega}=-X(y-X^T\omega)。具体公式可见上方推导

        结构风险最小化:当矩阵XX^T不可逆时使用,通过加入常数\lambda使得(XX^T+\lambda I)可逆,从而使得目标函数可以写成R(\omega)=\frac{1}{2}||y-X^T\omega||^2=\frac{1}{2}||\omega||^2

        最大似然:x,y之间除了满足未知函数h(x)外,还可满足条件概率p(y|x),令其等价于

                        y=f(x;\omega)+\epsilon        其中\epsilon为随机噪声且服从均值为0,方差为\sigma ^2的高斯分布,所以y服从均值为\omega^Tx方差为\sigma ^2的高斯分布。

                        所以\omega在训练集D上的似然函数为:p(y|X;\omega,\sigma )=\prod N(y^{(n)};\omega^{(n)},\sigma ^2)

                        取对化简后为:logp(y|X;\omega,\sigma)=\sum logN(y^{(n)};\omega^Tx^{(n)},\sigma^2)

                        对其求导\omega^{ML}=(XX^T)^{-1}Xy 与最小二乘法一致

        最大后验估计:略(以后用到再说)

偏差-方差分解

        略(暂时没用过)

机器学习类型

        分类

机器学习(九)归纳总结DLC_第3张图片

         评估指标

                准确率、错误率

                混淆矩阵:对于测试集上的情况,分为正例和假例,它们又可分为真假两种合计四种情况。以混淆矩阵表示如图:

机器学习(九)归纳总结DLC_第4张图片

                 精确率P_c=\frac{TP_c}{TP_c+FP_c}

                 召回率R_c=\frac{TP_c}{TP_c+FN_c}

                 F值F_c=\frac{(1+\beta^2\times P_c\times R_c)}{\beta^2\times P_c+R_c}

机器学习理论:

        PAC学习理论:可能近似正确

        没有免费午餐定理:不存在某种算法对所有问题有效

        奥卡姆剃刀原理:如无必要,勿增实体

        丑小鸭定理:世界上不存在相似性的客观标准

        归纳偏置:学习问题中的假设

三、Logistic回归

     详见笔记推导 

你可能感兴趣的:(机器学习,人工智能,算法)