深度学习2——线性回归

系列文章目录

深度学习1——基本概念


一、线性回归

(一)一元线性回归

一元线性回归(单变量线性回归)旨在建立一个线性模型,用于预测因变量。其模型表达式为 y N ≈ w x N + b y_{N} \approx w x_{N}+b yNwxN+b,其中 y N y_{N} yN是预测值, x N x_{N} xN是自变量, w w w是权重, b b b是偏置。回归误差通过 e n = y n − ( w x n + b ) e_{n}=y_{n}-\left(w x_{n}+b\right) en=yn(wxn+b)计算,均方和误差为 ∑ n = 1 N e n 2 = ∑ n = 1 N ( y n − w x n − b ) 2 \sum_{n=1}^{N} e_{n}^{2}=\sum_{n=1}^{N}\left(y_{n}-w x_{n}-b\right)^{2} n=1Nen2=n=1N(ynwxnb)2。基于均方误差最小化求解模型参数 ( w ∗ , b ∗ ) (w^{*}, b^{*}) (w,b)的方法称作最小二乘法,即 ( w ∗ , b ∗ ) = arg ⁡ min ⁡ w , b ∑ n = 1 N ( y n − w x n − b ) 2 \left(w^{*}, b^{*}\right)=\underset{w, b}{\arg\min} \sum_{n=1}^{N}\left(y_{n}-w x_{n}-b\right)^{2} (w,b)=w,bargminn=1N(ynwxnb)2,该求解过程也就是参数估计。

(二)多元线性回归

多元线性回归模型为 y n ≈ x n w + b y_{n} \approx x_{n}w + b ynxnw+b,展开后为 y n ≈ x n , 1 w 1 + x n , 2 w 2 + ⋯ + x n , D w D + b y_{n} \approx x_{n,1}w_{1} + x_{n,2}w_{2} + \cdots + x_{n,D}w_{D} + b ynxn,1w1+xn,2w2++xn,DwD+b,相比一元线性回归,它能考虑多个自变量对因变量的影响。在求解时,当 X T X X^{T}X XTX可逆(满秩)时,参数 w ∗ = ( X T X ) − 1 X T y w^{*} = (X^{T}X)^{-1}X^{T}y w=(XTX)1XTy,这是闭合解/解析解。然而,在现实情况中,如果数据的变量数量远大于样例数量( X X X的列数大于行数 ), X T X X^{T}X XTX就不满秩,此时会存在多个解,通常采用正则化方法来解决这一问题。

(三)问题求解与优化

除了通过解析解的方式求解多元线性回归的参数,还可以运用梯度下降法。其核心思想是通过迭代不断更新参数 w w w ,更新公式为 w ← w − η ∂ J ( w ) ∂ w w \leftarrow w - \eta \frac{\partial J(w)}{\partial w} wwηwJ(w),其中 ∂ J ( w ) ∂ w = 2 X T ( y − X w ) \frac{\partial J(w)}{\partial w} = 2X^{T}(y - Xw) wJ(w)=2XT(yXw) η \eta η为学习率。学习率的选择十分关键,它会影响模型的收敛速度和最终效果。如果学习率过大,模型可能会在训练过程中跳过最优解,导致无法收敛;如果学习率过小,模型的训练速度会非常缓慢,需要更多的迭代次数才能达到较好的效果。

(四)最小二乘法的鲁棒性

最小二乘法对数据中的异常点(Outliers)鲁棒性较差。异常点的存在会显著影响模型的参数估计,导致模型的预测性能下降 。为解决这一问题,随机取样一致(RANSAC)等方法可用于实现鲁棒回归,这些方法能够在一定程度上识别和排除异常点的干扰,使模型更加稳健。

(五)线性回归的拓展

线性回归中的“线性”是针对参数空间而言的,并非对输入变量的线性。这意味着可以先对输入变量进行非线性变换,再进行线性组合,从而使线性模型具备描述非线性关系的能力。例如,对于 y = w 1 x + w 2 x 2 + w 3 x 3 + b y = w_{1}x + w_{2}x^{2} + w_{3}x^{3} + b y=w1x+w2x2+w3x3+b,可以令 x 1 = x , x 2 = x 2 , x 3 = x 3 x_{1}=x, x_{2}=x^{2}, x_{3}=x^{3} x1=x,x2=x2,x3=x3 ,将其转化为线性形式。对数线性回归是广义线性模型的一种形式,如 y = exp ⁡ ( w x + b ) y = \exp(wx + b) y=exp(wx+b),两边取对数后得到 log ⁡ y = w x + b \log y = wx + b logy=wx+b。从形式上看它是线性回归,但实际上实现了输入空间到输出空间的非线性函数映射。广义线性模型的一般表达式为 y = g − 1 ( w T x ) y = g^{-1}(w^{T}x) y=g1(wTx),其中 g g g是单调可微函数,这种模型拓展了线性回归的应用范围,能够处理更复杂的关系。

二、正则化

(一)基本概念

正则化的目标函数由数据项 D ( x , y , w ) D(x, y, w) D(x,y,w)和正则化项 λ R ( w ) \lambda R(w) λR(w)组成,即 L ( w ) = D ( x , y , w ) + λ R ( w ) \mathcal{L}(w) = D(x, y, w) + \lambda R(w) L(w)=D(x,y,w)+λR(w)。数据项用于实现回归或分类的目标,例如使误差尽可能小(回归任务)或分类尽可能准确(分类任务);正则化项则用于限制参数空间,或者追求解的某些额外属性,比如使参数具有稀疏性 。通过调整正则化项的系数 λ \lambda λ,可以在数据拟合和模型复杂度之间进行权衡。

(二)岭回归示例

岭回归是在最小二乘模型的基础上加入正则项,其目标函数为 min ⁡ w 1 2 ∥ y − X w ∥ 2 2 + λ ∥ w ∥ 2 2 \min_{w} \frac{1}{2}\|y - Xw\|_{2}^{2} + \lambda \|w\|_{2}^{2} wmin21yXw22+λw22。这里的 λ \lambda λ是超参数,它的大小决定了对参数 w w w的约束程度。当 λ = 0 \lambda = 0 λ=0时,岭回归就退化为最小二乘模型;随着 λ \lambda λ增大,对参数 w w w的约束增强,模型复杂度降低,有助于避免过拟合。

(三)作用与效果

正则化的主要作用是控制模型的复杂度,有效避免过拟合现象。在实际应用中,增大样本数量虽然也能减轻过拟合问题,但在很多情况下,获取大量样本可能面临成本高、时间长等困难。此时,正则化提供了一种简单有效的替代方法,通过合理设置正则化参数,可以在有限样本的情况下,使模型在训练集和测试集上都表现出较好的性能。

三、逻辑斯蒂回归

(一)分类问题与逻辑斯蒂回归的引入

逻辑斯蒂回归主要用于解决分类问题,包括二分类和多分类任务。由于线性回归直接用于分类存在局限性,逻辑斯蒂回归引入了逻辑斯蒂函数(Sigmoid函数) y = 1 1 + e − z y = \frac{1}{1 + e^{-z}} y=1+ez1(其中 z = w T x z = w^{T}x z=wTx ) ,将线性回归的预测结果转化为分类概率。逻辑斯蒂回归虽然名为“回归”,但实际上是一种二分类方法。

(二)概率解释与模型推断

在二分类问题中,逻辑斯蒂回归具有明确的概率解释。 p 1 ( x ; w ) = p ( y = 1 ∣ x ; w ) = exp ⁡ ( w T x ) 1 + exp ⁡ ( w T x ) p_{1}(x; w) = p(y = 1|x; w) = \frac{\exp(w^{T}x)}{1 + \exp(w^{T}x)} p1(x;w)=p(y=1∣x;w)=1+exp(wTx)exp(wTx)表示输入属于正样本的后验概率, p 0 ( x ; w ) = p ( y = 0 ∣ x ; w ) = 1 1 + exp ⁡ ( w T x ) p_{0}(x; w) = p(y = 0|x; w) = \frac{1}{1 + \exp(w^{T}x)} p0(x;w)=p(y=0∣x;w)=1+exp(wTx)1表示输入属于负样本的后验概率。基于这些概率,模型的推断规则为:当 w T x > 0 w^{T}x > 0 wTx>0时,预测 y = 1 y = 1 y=1 ;当 w T x < 0 w^{T}x < 0 wTx<0时,预测 y = 0 y = 0 y=0 。这种概率解释不仅能够预测样本的类别,还能给出预测的可信度,为决策提供了更多信息。

(三)多分类拓展(Softmax回归)

Softmax回归是逻辑斯蒂回归在多分类问题上的拓展。其公式为 p ( y = c ∣ x n ; w ) = exp ⁡ ( w c T x n ) ∑ k = 1 C exp ⁡ ( w k T x n ) p(y = c|x_{n}; w) = \frac{\exp(w_{c}^{T}x_{n})}{\sum_{k = 1}^{C} \exp(w_{k}^{T}x_{n})} p(y=cxn;w)=k=1Cexp(wkTxn)exp(wcTxn) c = 1 , 2 , ⋯   , C c = 1, 2, \cdots, C c=1,2,,C ,其中 C C C是类别数。Softmax回归将输入数据转换为属于各个类别的概率,并且这些概率满足 1 > y i > 0 1 > y_{i} > 0 1>yi>0 ∑ i y i = 1 \sum_{i}y_{i} = 1 iyi=1 ,从而实现多分类的功能。

(四)交叉熵损失

相对熵(Relative Entropy),又称KL散度(Kullback - Leibler Divergence),用于衡量两个概率分布之间的差异程度。

假设存在离散随机变量 (X),其两个概率分布分别为 (p(x)) 和 (q(x)),那么 (p) 对 (q) 的相对熵定义为:
D K L ( p ∣ ∣ q ) = ∑ i p ( x i ) log ⁡ ( p ( x i ) q ( x i ) ) D_{KL}(p||q)=\sum_{i}p(x_{i})\log\left(\frac{p(x_{i})}{q(x_{i})}\right) DKL(p∣∣q)=ip(xi)log(q(xi)p(xi))

相对熵具有以下重要性质:

  1. 非负性 D K L ( p ∣ ∣ q ) ≥ 0 D_{KL}(p||q)\geq0 DKL(p∣∣q)0
    这表明相对熵的值始终大于等于零。仅当 (p(x)) 和 (q(x)) 的分布完全相同时,相对熵才等于零。所以相对熵可以用来度量两个分布的差异程度,差异越大,相对熵的值也就越大。
  2. 不对称性 D K L ( p ∣ ∣ q ) ≠ D K L ( q ∣ ∣ p ) D_{KL}(p||q)\neq D_{KL}(q||p) DKL(p∣∣q)=DKL(q∣∣p)
    即相对熵不具有对称性。这意味着从分布 (q) 到分布 (p) 的差异度量,与从分布 (p) 到分布 (q) 的差异度量是不同的。在实际应用场景中,选择不同的参考分布会得到不同的相对熵结果。

在机器学习领域,相对熵常用于衡量模型预测分布与真实分布之间的差异。一般情况下,将目标真实分布(如训练数据的真实标签分布)设为 (p(x)),模型预测分布设为 (q(x))。为使模型预测更贴合真实情况,通常需要最小化相对熵,促使两个分布尽可能趋于一致。

相对熵与交叉熵(Cross Entropy)紧密相关。由相对熵公式 D K L ( p ∣ ∣ q ) = ∑ i p ( x i ) log ⁡ ( p ( x i ) q ( x i ) ) = ∑ i ( p ( x i ) log ⁡ p ( x i ) − p ( x i ) log ⁡ q ( x i ) ) D_{KL}(p||q)=\sum_{i}p(x_{i})\log\left(\frac{p(x_{i})}{q(x_{i})}\right)=\sum_{i}(p(x_{i})\log p(x_{i}) - p(x_{i})\log q(x_{i})) DKL(p∣∣q)=ip(xi)log(q(xi)p(xi))=i(p(xi)logp(xi)p(xi)logq(xi))可知,在机器学习里,目标分布 (p(x)) 通常是固定的(即训练数据的分布是确定的),此时(\sum_{i}p(x_{i})\log p(x_{i})) 是一个常数。因此,最小化 (p) 与 (q) 的相对熵就等同于最小化 (p) 与 (q) 的交叉熵 H ( p , q ) = − ∑ i p ( x i ) log ⁡ q ( x i ) H(p, q)=-\sum_{i}p(x_{i})\log q(x_{i}) H(p,q)=ip(xi)logq(xi)。交叉熵在分类问题中常被用作损失函数,通过最小化交叉熵损失来调整模型参数,让模型的预测分布更接近真实分布,进而提升模型的分类性能。
最小化目标分布 p ( x ) p(x) p(x)与预测分布 q ( x ) q(x) q(x)的KL散度等同于最小化它们的交叉熵。对于分类问题,数据标签通常服从伯努利分布(两点分布/0 - 1分布) ,交叉熵损失函数定义为 H ( p , q ) = − ∑ i p i log ⁡ q i H(p, q) = -\sum_{i}p_{i}\log q_{i} H(p,q)=ipilogqi。在模型学习过程中,通过最小化交叉熵损失来优化模型参数,使模型的预测分布更接近真实分布,进而提高模型的分类性能。

你可能感兴趣的:(深度学习,深度学习,线性回归,人工智能)