深度学习笔记——Resnet和迁移学习

1.ResNet的提出
深度学习与网络深度的挑战:
在深度学习中,网络的“深度”(即层数)通常与模型的能力成正比。然而,随着网络深度的增加,一些问题也随之出现,最突出的是梯度消失/爆炸问题。这使得深层网络难以训练。

梯度消失:
梯度消失是指在训练深度神经网络时,通过多层传递的梯度(误差)变得非常小,接近于零。这导致网络中较早层的权重更新非常缓慢,甚至几乎不更新。
梯度爆炸:
梯度爆炸是指在训练深度神经网络时,通过多层传递的梯度变得非常大,导致权重更新过大,从而使得网络权重的值变得非常大或非常小,这会导致模型的输出变得不稳定。

2.在传统的 CNN 中,每个卷积层试图学习输入与输出之间的映射,即f(x)
残差块试图学习输入与输出之间的残差映射,即:H(x)=f(x)-x

H(x):残差函数

f(x):目标映射函数

x:输入
最后H(x)与输入x相加,得到输出f(x)=H(x)+x

3.迁移学习:

迁移学习(TL)是机器学习(ML)技术的一种,是指将针对一项任务预训练的模型进行微调以用于新的相关任务。 训练新的机器学习模型是一个耗时且复杂的过程,需要大量的数据、计算能力和多次迭代才能投入生产。 通过迁移学习,组织则可以使用新数据针对相关任务对现有模型进行重新训练。

4.注意力机制:

注意力机制(Attention Mechanism)是一种在深度学习模型中模拟人类注意力的机制,它允许模型在处理信息时能够聚焦于当前任务最相关的部分。

5  思考: ViT一定比CNN好吗?

1.尺度不变:对部分视觉任务不是最佳模式
2. patch大小:
大:不适用像素级任务 - 小:计算复杂度过高
3.训练成本太大(Data Hungry):JFT-300M or at least ImageNet

你可能感兴趣的:(深度学习,深度学习,笔记,迁移学习)