深度学习入门笔记(一)二分分类、logistic回归

Its like a finger pointing away to the moon. Dont concentrate on the finger or you will miss all that heavenly glory.

目录

什么是二分类?

符号解释

logistic回归

sigmoid函数

logistic回归损失函数


什么是二分类?

深度学习入门笔记(一)二分分类、logistic回归_第1张图片

有一组图片,里面有些是小猫咪,有些不是小猫咪。每张图片由64×64个像素组成,每个像素包含(红、绿、蓝)三个颜色的信息。将图片里的64×64×3的数据提取出来,组合成一个向量,就是x

符号解释

(x,y)\,x\epsilon \mathbb{R}^{n_x},\,y\epsilon \left \{ 0,1 \right \}

x是一个长度为n_x的向量,y是一个数,要么是0,要么是1(是或不是)。

x是training sets,是由m个训练样本组成的。(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)}),这就是我们的训练集(training set)。

训练数据集:m_{train},用于训练我们的二分类模型。

测试数据集:m_{test}(test example),用于测试模型的准确度。

我们会把整个数据集写的更紧凑一些,就像这样。

X=\left [ x^{(1)}x^{(2)}...x^{(m)} \right ](将向量拼凑在一起,形成矩阵)

X\epsilon \mathbb{R}^{n_x \times m}X是一个n_xm列的矩阵。

X.shape

得到的结果也是\left ( n_x,m \right )

同时我们也把标签y也整理在向量中

y=\left [ y^{(1)}y^{(2)}...y^{(m)} \right ],y\epsilon \mathbb{R}^{1 \times m}

logistic回归

logistic回归——一个机器学习算算法,用于监督学习,用于解决二分类问题。

x 是一个特征向量,他代表着一个图片。

y 代表着这张图片是不是一只小猫咪。

\hat y 是你的算法对这张图片是不是小猫咪的估计。\hat y=P\(y=1|x),特征向量x的标签y为1的概率。

logistic回归的参数是w,他和x一样,也是一个n_x维的向量,w\epsilon \mathbb{R}^{n_x}b是一个常数,b\epsilon \mathbb{R}

如果我们用线性回归法的话,我们直接可以\hat y=w^Tx+b,但这并不是一个好的二分类算法。

因为我们希望\hat y是一个概率,它应该介于0和1之间。w和x直接线性相乘再相加,显然不会是一个介于0和1之间的数,他有可能会非常大,也有可能是个负数。

sigmoid函数

所以,这里,我们引入sigmoid函数。\hat y=\sigma \(w^Tx+b)

深度学习入门笔记(一)二分分类、logistic回归_第2张图片

 \sigma \(z)=\frac{1}{1+e^{-z}}

z非常大时,\sigma\(z)就非常接近1。当z非常小时,\sigma \(z)就非常接近0。

logistic回归损失函数

\hat y^{(i)}=\sigma\(w^Tx^{(i)}+b),where\,\,\sigma\(z^{(i)})=\frac{1}{1+e^{-z^{(i)}}}\\ Given\,\, \left \{ \left ( x^{(1)},y^{(1)} \right ),...,\left ( x^{(m)},y^{(m)} \right ) \right \},want\,\,\,\hat y^{(i)}\approx y^{(i)}

损失函数(loss function),例如L(\hat y,y)=\frac{1}{2}\(\hat y-y)^2,但是logistic回归中我们一般不用这样的损失函数,因为这样我们可能会让我们的损失函数有很多的局部极值,用梯度下降法,我们很难得到最有解,我们很有可能得到的是局部最优解。

在logistic回归中,我们用的是这样的损失函数。L\(\hat y,y)=-\(ylog\hat y+(1-y)log\(1-\hat y))

由于sigmoid函数,\hat y只能介于0和1之间。我们可以分别将y=1\,\,\,\,y=0带入这个损失函数看一下,感受一下。

成本函数(cost function),J(w,b)=\frac{1}{m}\sum^m_{i=1}L(\hat y,y)=-\frac{1}{m}\sum^m_{i=1}\left [ y^{(i)}log\hat y^{(i)}+(1-y^{(i)})log(1-\hat y^{(i)}) \right ]

损失函数是对单个数据来说的,成本函数是对整个数据集来说的。

你可能感兴趣的:(深度学习笔记,深度学习,分类,人工智能)