《模式识别与机器学习》第一章

C1

符号含义
x \bold x x:向量,曲线拟合问题中的x坐标数值序列。元素个数为N。
t \bold t t:向量,曲线拟合问题中的y坐标(target)数值序列。
w \bold w w:向量,曲线拟合问题中的待估计的参数,即M阶多项式的各阶系数。
β \beta β: 标量,协方差的倒数,表示样本的精度。
α \alpha α:标量,同上,曲线拟合例子中的先验的精度。

多项式曲线拟合
E ( w ) = 1 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 E(w) = \frac{1}{2}\sum_{n=1}^N{\{y(x_n,w)-t_n}\}^2 E(w)=21n=1N{y(xn,w)tn}2
RMS
E R M S = 2 E ( w ) N E_{RMS}=\sqrt {\frac{2E(w)}{N}} ERMS=N2E(w)

观测数据的多少,影响曲线拟合情况:同样的模型,如较少的数据会导致严重过拟合,较多的数据会使得拟合更接近理想模型。多项式的阶数影响拟合的结果。
控制过拟合现象的一种方法,
E ( w ) = 1 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 + λ 2 ∥ w ∥ 2 E(w) = \frac{1}{2}\sum_{n=1}^N\{{y(x_n,w)-t_n}\}^2+\frac{\lambda}{2}\|w\|^2 E(w)=21n=1N{y(xn,w)tn}2+2λw2

λ \lambda λ的数值也影响模型估计的结果。

Polynomial curve fitting is Least Square Minimization.
从概率方法的角度去看问题
对模型的输出变量做概率分布,Gaussian conditional distribution
p ( t ∣ x , w , β ) = N ( t ∣ y ( x , w ) , β − 1 ) p(t|x,\bold w,\beta) = \mathcal{N}(t|y(x,\bold w), \beta^{-1}) p(tx,w,β)=N(ty(x,w),β1)
β \beta β未知,称为精度参数。
使用训练数据拟合曲线参数 w w w β \beta β,似然函数
p ( t ∣ x , w , β ) = ∏ n = i N N ( t n ∣ y ( x n , w ) , β − 1 ) p(\bold t|\bold x,\bold w,\beta) = \prod_{n=i}^N {\mathcal{N}(t_n|y(x_n,\bold w), \beta^{-1})} p(tx,w,β)=n=iNN(tny(xn,w),β1)

曲线拟合参数的maximum likely solution,直译最可能的解,“最大似然解”,与曲线拟合的误差最小二乘解等价。

P29式(1.63)?

贝叶斯后验概率同先验概率与似然概率的乘积呈正比

最大化后验,MAP,等价于最小化sum-of-squares regularized error function

贝叶斯的曲线估计

模型选择

从一系列模型中选择最佳模型。联想到Neural Architecture Search,
训练集用以迭代模型,验证集用于验证并迭代,最后用测试集检查过拟合问题。
有限训练数据,一交叉验证方法,S-fold cross-validation:数据分成S份,每次S-1份训练,余下1份验证,S种组合训练与验证。
交叉验证是自动化的验证方法。
?Akaike Information Criterion
l n   p ( D ∣ w M L ) − M ln\ p(D|\bold w_{ML}) - M ln p(DwML)M
M指估计参数的个数。

维度诅咒

石油成分估计例,高维度的输入导致简单的思路无法解决实际问题。

解决高维度难题:1. 数据可以被confine到有效的低维度区域空间 2. 实际数据表现出(局部的)连续性,输入变量的局部小变化引起目标量的小变化。

决策理论

预测加决策
预测问题的分类:分类与回归。
分类例:依据X光片子诊断病人是否有肿瘤。

设计一个模型,输入X光图像,输出判断及其概率。

最小化推理错误概率即最大化后验概率,观测为x,分类为 C ∗ C_* C
p ( m i s t a k e ) = p ( x ∈ R 1 , C 2 ) + p ( x ∈ R 2 , C 1 ) = ∫ R 1 p ( x , C 2 ) d x + ∫ R 2 p ( x , C 1 ) d x p ( x , C ∗ ) = p ( x ) ∗ p ( C ∗ ∣ x ) p(mistake)=p(x\in R_1,C_2)+p(x\in R_2,C_1)\\=\int_{R_1}p(x,C_2)dx+\int_{R_2}p(x,C_1)dx\\p(x,C_*)=p(x)*p(C_*|x) p(mistake)=p(xR1,C2)+p(xR2,C1)=R1p(x,C2)dx+R2p(x,C1)dxp(x,C)=p(x)p(Cx)

p ( c o r r e c t ) = ∑ k = 1 K ∫ R k p ( C k , x ) d x p(correct)=\sum^K_{k=1}\int_{R_k}p(C_k,x)dx p(correct)=k=1KRkp(Ck,x)dx

loss matrix
[ 0 1000 1 0 ] \left[\begin{array}{}0&1000\\1&0\end{array}\right] [0110000]
回归例:曲线拟合

估计一个函数y(x),拟合目标t,对各个输入x而言
E ( L ) = ∫ ∫ L ( y ( x ) , t ) p ( x , t ) d x d t E(L)=\int \int L(y(x),t)p(x,t)dxdt E(L)=∫∫L(y(x),t)p(x,t)dxdt
一般, L ( y ( x ) , t ) = { y ( x ) − t } 2 L(y(x),t)=\{y(x)-t\}^2 L(y(x),t)={y(x)t}2

信息论

信息量概念:事件,随机变量的degree of surprise,惊喜度
两个规律:

  1. 越罕见的事件,概率越小,其信息量越大
  2. 独立事件的发生概率满足乘法运算,事件的信息量满足加法运算;

概率的负对数作信息量满足上述要求。

h ( x ) = − l o g 2 p ( x ) h(x)=-log_2p(x) h(x)=log2p(x)
h(x)单位为bit
一个随机变量的信息量的期望称为熵。
H ( x ) = − ∑ p ( x ) l o g 2 p ( x ) H(x)=-\sum {p(x)log_2p(x)} H(x)=p(x)log2p(x)

熵的范围非负;概率分布越集中突出,其熵越小,最小为零,即某一个事件发生概率为1,其他事件发生概率为零。

从log2到自然对数,熵的单位从bits到nats。bits=ln2*nats

连续变量的熵:
H ( x ) = ∫ p ( x ) l n p ( x ) d x H(x)=\int p(x)lnp(x)dx H(x)=p(x)lnp(x)dx

用变量表示事件,离散变量的熵的最大值为lnM,M为离散变量的取值的个数。连续变量的熵发散,未找到最大值。

相对熵:用分布q近似未知分布p,发送信息编码时所谓最优编码方法,则为使得信息无失真,需要额外的信息量,称为相对熵。即互信息。

− ∫ q ( x ) l n p ( x ) d x − ( − ∫ p ( x ) l n p ( x ) d x ) = − ∫ q ( x ) l n p ( x ) q ( x ) d x -\int q(x)lnp(x)dx -(-\int p(x)lnp(x)dx) \\ =-\int q(x)ln\frac{p(x)}{q(x)}dx q(x)lnp(x)dx(p(x)lnp(x)dx)=q(x)lnq(x)p(x)dx

− l n < ∗ > -ln<*> ln<>是凸函数。凸函数f(x)有如下性质,q(x)任意, ∫ q ( x ) d x = 1 \int q(x)dx=1 q(x)dx=1.
∫ q ( x ) f ( x ) d x ≥ f ( ∫ q ( x ) x d x ) \int q(x)f(x)dx \ge f(\int q(x)xdx) q(x)f(x)dxf(q(x)xdx)

你可能感兴趣的:(机器学习,人工智能)