李宏毅老师2017上课摘要笔记

其他人的笔记一

Regression:系统的输出是一个标量
Classification:在输出中多选一

  • 线性
  • 非线性:DeepLearning SVM decision-tree KNN...

Transfer Learning:训练过的系统可以分类大象、猴子。那么它对识别猫狗有什么帮助

Unsupervised Learning:Machine Drawing

Structured Learning:

Reinforcement Learning:从评价中去学习,没有数据去做supervised learning的时候做

Regression

天气预测,股价预测,自动驾驶等等

bias 偏差 模型对于数据的拟合度 欠拟合的模型 高偏差
variance 方差 对于数据改变的敏感性 过拟合的模型 高方差

李宏毅老师2017上课摘要笔记_第1张图片
bias vs. variance

AdaGrad自适应学习率的梯度下降
核心思想:每个参数第t次的学习率都会除以之前所有微分的均方根

Stochastic Gradient Descent 随机梯度下降

半监督学习

概念:部分数据没有label

自学习

训练的时候,先用有label的数据进行模型训练,然后将模型用于没有label的测试数据。然后将部分训练数据放回训练集重新训练模型(放回的规则自定义)
这种方法不适用于回归问题,原因是哪些放进训练集的数据对模型不会有任何影响。(是不是显而易见)


李宏毅老师2017上课摘要笔记_第2张图片
hard label vs soft label, NN中用hard label

没有label的数据,用作熵正则项,对模型进行训练


李宏毅老师2017上课摘要笔记_第3张图片
loss function
Smoothness Assumption
李宏毅老师2017上课摘要笔记_第4张图片
x2,x3虽然比较近,但是x1,x2之间有high density path

方法:cluster and then label (聚类)
对于图像,先用deep autoencoder抽取特征,再做聚类


李宏毅老师2017上课摘要笔记_第5张图片
定义相似度函数 e-neighborhood表示达到相似度阈值了才能算是邻居

李宏毅老师2017上课摘要笔记_第6张图片
如何计算平滑度

李宏毅老师2017上课摘要笔记_第7张图片
平滑度数学表达

李宏毅老师2017上课摘要笔记_第8张图片
如果xi,xj距离很近,我们希望他们的label yi, yj距离也很近

非监督学习

  • 聚类、降维
  • generation生成
PCA
李宏毅老师2017上课摘要笔记_第9张图片
W的2norm等于1,则点积的值就是投影

李宏毅老师2017上课摘要笔记_第10张图片
w的个数是要降到的维数吗,求解W用

李宏毅老师2017上课摘要笔记_第11张图片
数学推演,w1是x的协方差矩阵最大特征值所对应的的特征向量

PCA可以用奇异值分解SVD来求解

LLE
李宏毅老师2017上课摘要笔记_第12张图片
xi是多个邻接点xj的线性组合

李宏毅老师2017上课摘要笔记_第13张图片
xi降维到zi,xj降维到zj,保持wij不变

李宏毅老师2017上课摘要笔记_第14张图片
对zi的限制

上面这些算法的问题是没有定义如果xi,xj距离很远,zi,zj应该是什么关系

t-SNE
李宏毅老师2017上课摘要笔记_第15张图片
P和Q相当于把相似度做了归一化,tSNE的想法就是降维前后的相似度分布元接近越好

常用于高维数据在低维空间的可视化

AutoEncoder

降维
PCA的神经网络版本

李宏毅老师2017上课摘要笔记_第16张图片
image.png
李宏毅老师2017上课摘要笔记_第17张图片
关键是code有多好,能不能进行区分,上面是PCA,下面是auto encoder
李宏毅老师2017上课摘要笔记_第18张图片
为了encode更好,可以在数据上加一些噪声
李宏毅老师2017上课摘要笔记_第19张图片
unpooling

李宏毅老师2017上课摘要笔记_第20张图片
deconvolution
图像生成

Pixel RNN

VAE
VAE可以控制输出,学习出来的code中,每一项都在图中都有实际意义,比如头发长度,眼睛大小等等。


李宏毅老师2017上课摘要笔记_第21张图片
最小化输入输出差异的同时,还需要最小化下面这一项,为了限制训练出来的方差不能太小,否则都是0了
李宏毅老师2017上课摘要笔记_第22张图片
VAE与高斯混合模型的关系

VAE的局限:始终没有学着生成新的图片

GAN generative adversarial network

generator(decoder in VAE)
discriminator

调参很困难 没有明确的信号告诉你目前的generator是不是足够好

Transfer Learning

target data (与Task相关的数据)
source data (与Task没有直接关系的数据)
one shot learning (target data很少)


李宏毅老师2017上课摘要笔记_第23张图片
transfer learning 分类
fine tune
  • fine tune的时候加regularization (比如新模型和旧模型差异的L2)
  • fine tune 部分层 (语音辨识一般fine tune 前面几层,图像识别一般是fine tune后面几层)
Multitask Learning
李宏毅老师2017上课摘要笔记_第24张图片
Multitask
Domain-adversarial training (GAN的一种)
李宏毅老师2017上课摘要笔记_第25张图片
task description

李宏毅老师2017上课摘要笔记_第26张图片
如果用传统的神经网络,source和targetd的feature分布可能是完全不相干的,如图中的蓝色和红色,我们希望有一种办法,让两者的分布尽量相同
李宏毅老师2017上课摘要笔记_第27张图片
引入domain classifier
李宏毅老师2017上课摘要笔记_第28张图片
feature extractor 要对抗domain classifier, 尽量让domain classifier分不清输入的图像是来自哪个domain
李宏毅老师2017上课摘要笔记_第29张图片
核心优化算法
Zero shot learning
李宏毅老师2017上课摘要笔记_第30张图片
task description
李宏毅老师2017上课摘要笔记_第31张图片
一种思想:找到比分类本身更小的元素(特征)
李宏毅老师2017上课摘要笔记_第32张图片
image.png

SVM

SVM=hinge loss + kernel method


李宏毅老师2017上课摘要笔记_第33张图片
delta不可微分,所以不能GD
李宏毅老师2017上课摘要笔记_第34张图片
ideal loss是不可微分的,hinge loss (60分就好, 超过margin1 就好)
Linear SVM
李宏毅老师2017上课摘要笔记_第35张图片
SVM可以用GD的
李宏毅老师2017上课摘要笔记_第36张图片
训练出来的模型参数W其实就是所有训练数据的线性组合。由于hingeloss的特性,alfa是一个稀疏矩阵(不是所有的xn都会加到w里去),不为0的那些训练数据就是支持向量
李宏毅老师2017上课摘要笔记_第37张图片
kernel function
李宏毅老师2017上课摘要笔记_第38张图片
K相似度函数,不同的kernel,即不同的相似度函数,x_test与每一个x_train计算相似度
李宏毅老师2017上课摘要笔记_第39张图片
rbf kernel

Regression:
SVR: 在某个距离范围内loss就是0

Structured Learning

例子:目标检测的bounding box


李宏毅老师2017上课摘要笔记_第40张图片
image.png
李宏毅老师2017上课摘要笔记_第41张图片
举个栗子

RNN

李宏毅老师2017上课摘要笔记_第42张图片
RNN结构
李宏毅老师2017上课摘要笔记_第43张图片
举个栗子
李宏毅老师2017上课摘要笔记_第44张图片

李宏毅老师2017上课摘要笔记_第45张图片
xt做现行变换成z 每个z都是Vector,z的每个维度操控LSTM每个cell的输入
李宏毅老师2017上课摘要笔记_第46张图片
image.png
Attention based model
李宏毅老师2017上课摘要笔记_第47张图片
image.png
李宏毅老师2017上课摘要笔记_第48张图片
image.png
李宏毅老师2017上课摘要笔记_第49张图片
Speech Question Answering

你可能感兴趣的:(李宏毅老师2017上课摘要笔记)