以上就是今天要讲的内容,本文简单介绍了深度学习\机器学习的相关知识点以及关键名词的含义。
◦ 矩阵运算:矩阵乘法、转置、逆矩阵(如权重矩阵的更新)。
◦ 特征值与特征向量:用于理解数据降维(如PCA)。
◦ 张量(Tensor):深度学习中的核心数据结构(如三维张量表示图像)。
◦ 梯度(Gradient):函数变化最快的方向(优化模型的关键)。
◦ 链式法则(Chain Rule):反向传播算法的数学基础。
◦ 概率分布:高斯分布、伯努利分布(如输出层的概率建模)。
◦ 贝叶斯定理:模型参数的后验概率推断。
• Python:深度学习的主流语言,需掌握函数、类、文件操作。
• NumPy:矩阵运算(如np.dot实现矩阵乘法)。
• Pandas:数据清洗与预处理(处理CSV/表格数据)。
• Matplotlib/Seaborn:数据可视化(绘制损失曲线、特征分布)。
• 监督学习:分类(如猫狗识别)、回归(如房价预测)。
• 无监督学习:聚类(K-Means)、降维(PCA、t-SNE)。
• 模型评估:
◦ 交叉验证(Cross-Validation):防止过拟合。
◦ 混淆矩阵(Confusion Matrix):分类任务的精度、召回率计算。
• 感知机(Perceptron):单层网络,解决线性可分问题。
• 多层感知机(MLP):引入隐藏层,解决非线性问题。
◦ 全连接层(Dense Layer):每层神经元与下一层全连接。
• Sigmoid:输出范围**(0,1),用于二分类**(梯度消失问题严重)。
• ReLU(Rectified Linear Unit):解决梯度消失,加速训练(如f(x)=max(0,x))。
• Softmax:多分类任务的输出层激活函数(输出概率分布)。
• 均方误差(MSE):回归任务(如预测房价)。
• 交叉熵损失(Cross-Entropy):分类任务(如图像分类)。
• 梯度下降(Gradient Descent):全局更新权重。
• 随机梯度下降(SGD):小批量数据更新,加速训练。
• Adam:自适应学习率(结合动量与RMSProp)。
• 计算图(Computational Graph):跟踪计算过程(如TensorFlow/PyTorch自动微分)。
• 链式求导:从输出层到输入层逐层计算梯度。
• L1/L2正则化:防止过拟合(添加权重惩罚项)。
• Dropout:随机丢弃神经元,增强泛化能力。
• 批量归一化(Batch Normalization):加速训练,稳定梯度。
• 核心组件:
◦ 卷积层(Convolutional Layer):提取局部特征(如边缘、纹理)。
◦ 池化层(Pooling Layer):降低维度(如Max Pooling保留显著特征)。
• 经典模型:
◦ LeNet-5:手写数字识别(MNIST数据集)。
◦ ResNet:残差连接解决深层网络退化问题。
• 时序建模:处理序列数据(文本、语音、时间序列)。
• LSTM(Long Short-Term Memory):门控机制(输入门、遗忘门、输出门)解决长依赖问题。
• GRU(Gated Recurrent Unit):简化版LSTM,计算效率更高。
• 自注意力(Self-Attention):计算序列中每个位置的重要性(如“猫追老鼠”中“追”的关联度)。
• Transformer架构:编码器-解码器结构(如BERT、GPT的基础)。
◦ 多头注意力(Multi-Head Attention):并行学习多种语义关系。
• 生成器(Generator):生成逼真数据(如图像生成)。
• 判别器(Discriminator):区分真实数据与生成数据。
• 对抗训练:生成器与判别器博弈优化(如DCGAN、StyleGAN)。
• 词嵌入(Word Embedding):
◦ Word2Vec:基于上下文的词向量(Skip-Gram/CBOW模型)。
◦ BERT:双向Transformer预训练模型(Masked Language Modeling)。
• 文本生成:GPT系列模型(自回归生成文本)。
• 目标检测:YOLO、Faster R-CNN(定位与分类结合)。
• 图像分割:U-Net(医学图像分割)、Mask R-CNN(实例分割)。
• 马尔可夫决策过程(MDP):状态、动作、奖励的数学框架。
• 深度Q网络(DQN):Q-Learning与神经网络结合(如玩Atari游戏)。
• 对比学习(Contrastive Learning):SimCLR、MoCo(无需人工标注学习特征)。
• 元学习(Meta-Learning):模型快速适应新任务(如MAML算法)。
• PyTorch:动态图优先,适合研究与快速原型开发。
• TensorFlow:静态图优化,适合工业部署(如TF Serving)。
• PaddlePaddle:百度开发的深度学习框架。
• ONNX:跨框架模型转换格式。
• TensorRT:NVIDIA的推理优化引擎(加速GPU推理)。
• 数据并行:多GPU分割数据(如PyTorch的DataParallel)。
• 模型并行:拆分模型到不同设备(如训练超大规模模型)。
定义:一种学习方式,其中模型通过输入数据和对应的正确标签来学习,目标是预测新的数据的标签。
定义:一种学习方式,其中模型仅通过输入数据学习,没有标签,目标是发现数据中的模式或结构。
定义:结合了监督学习和无监督学习,使用部分标记的数据来训练模型。
定义:一种学习方式,其中智能体通过与环境的交互来学习达到目标,通常涉及奖励和惩罚。
定义:使用专业知识和技巧来创建特征,这些特征可以提高机器学习模型的性能。
定义:一种评估模型泛化能力的技术,通过将数据集分为多个子集进行多次训练和验证。
定义:模型在训练数据上表现很好,但在新数据上表现不佳,通常是因为模型太复杂。
定义:模型在训练数据和测试数据上都表现不佳,通常是因为模型太简单。
定义:用于量化模型预测值与实际值之间差异的函数,用于指导模型的训练。
定义:一种优化算法,用于通过迭代调整模型参数以最小化损失函数。
定义:一种模拟人脑神经元连接的计算模型,由多层节点(或神经元)组成。
定义:一种简单的线性二分类器,是神经网络的基本单位。
定义:信息在网络中单向传播,没有循环连接。
定义:一种训练神经网络的算法,通过计算损失函数关于网络参数的梯度来更新权重。
定义:用于给神经元引入非线性因素的函数,如ReLU、Sigmoid、Tanh等。
定义:主要用于图像识别,通过卷积层和池化层来提取特征。
定义:适用于序列数据,具有循环结构,能够处理变长输入。
定义:RNN的一种,能够学习长期依赖信息,解决了梯度消失问题。
定义:LSTM的简化版本,同样用于处理序列数据。
定义:由生成器和判别器组成,通过对抗过程生成新的数据。
定义:一种无监督学习模型,用于数据编码和重建。
定义:用于防止过拟合的技术,如L1和L2正则化。
定义:一种正则化方法,通过随机丢弃网络中的神经元来防止过拟合。
定义:一种技术,用于加速训练过程,通过归一化每个小批量数据的激活。
定义:用于更新模型参数以最小化损失函数的方法,如Adam、RMSprop等。
定义:一种机制,允许模型专注于输入数据的重要部分,常用于自然语言处理。
定义:利用在某个任务上学到的知识来解决另一个相关任务的技术。
以上就是今天要讲的内容,本文仅仅简单介绍了深度学习\机器学习的相关知识点以及关键名词的含义。