研术工坊

深度学习核心知识简介和模型调参

深度学习模型调优就像调制一道复杂的菜肴，需要掌握多种"调料"的用法。本文将为您详解这些关键"调料"，帮助您烹饪出高性能的模型。

### 核心参数及其影响

#### 1️⃣ Loss（损失函数）

**基本介绍**：衡量模型预测与真实值差距的指标，是模型优化的指南针。

**生活类比**：

想象你在教小孩认识动物：

- **完美情况**：小孩看到猫说"猫"，看到狗说"狗" → Loss = 0

- **有错误**：小孩看到猫说"狗" → Loss > 0，错误越大Loss越大

- **完全错误**：小孩把所有动物都说成"鱼" → Loss很大

不同的损失函数就像不同的评分标准：

- **MSE(均方误差)**：错得越多，惩罚越重（平方关系）

- **MAE(平均绝对误差)**：错就是错，惩罚与错误成正比

- **交叉熵**：不仅看对错，还看信心程度（猜对但不确定也扣分）

**特点**：

- 为模型提供明确的学习目标

- 量化模型性能，便于比较不同模型

- 不同损失函数适应不同任务需求

- 选择不当可能导致训练困难

- 某些损失函数对异常值敏感

- 优化损失不一定直接提升业务指标

**调整建议**：

- 分类问题：初始使用CrossEntropy，遇到类别不平衡时考虑Focal Loss

- 回归问题：从MSE开始，对异常值敏感时考虑MAE或Huber Loss

- 生成模型：根据任务选择特定损失函数，如GAN使用对抗损失

#### 2️⃣ Learning Rate（学习率）

**基本介绍**：控制模型学习速度的关键参数，影响收敛速度和稳定性。

**生活类比**：

学习率就像开车时的油门控制：

**学习率太大**（猛踩油门）：

- 车子冲得太快，可能冲出道路或翻车

- 模型训练：参数变化剧烈，跳过最优解，可能永远不收敛

- 表现：损失忽大忽小，训练曲线剧烈震荡

**学习率太小**（油门踩太轻）：

- 车子前进极慢，可能需要几小时才能到达目的地

- 模型训练：参数变化微小，收敛极慢，可能陷入局部最小值

- 表现：损失下降缓慢，训练需要非常多的轮次

**学习率合适**（油门控制恰当）：

- 车子平稳加速，适时减速，高效安全地到达目的地

- 模型训练：参数更新步伐适中，既高效又稳定

- 表现：损失平稳下降，在合理时间内达到较好性能

**特点**：

- 可调节训练速度和稳定性

- 适当调整可避免局部最小值

- 学习率调度可进一步优化训练过程

- 需要经验选择，没有万能值

- 设置不当会导致训练失败

- 可能需要多次尝试才能找到最佳值

**调整建议**：

- 初始值：通常从0.1（SGD）或0.001（Adam）开始

- 调整策略：训练不稳定时减小，收敛太慢时增大

- 进阶技巧：使用学习率调度器，如余弦退火或OneCycleLR

#### 3️⃣ Batch Size（批次大小）

**基本介绍**：每次更新权重时使用的样本数量，影响训练速度和泛化能力。

**生活类比**：

想象你是一位厨师在学习烹饪不同菜肴：

**小批次**（batch_size = 1-8）：

- 一次只学1道菜，每学完立即调整技巧

- 优点：学习非常灵活，能快速适应每道菜的特点

- 缺点：可能因一道失败的菜大幅改变技巧，学习过程不稳定

**中等批次**（batch_size = 16-64）：

- 一次学习16道菜，综合评价后调整技巧

- 优点：学习较稳定，又不失灵活性

- 缺点：需要更多的厨房空间（内存）

**大批次**（batch_size = 128+）：

- 一次学习上百道菜，全面评估后才调整技巧

- 优点：学习非常稳定，全面

- 缺点：需要巨大的厨房（大内存），适应性较差，可能学到"平均化"的技巧

**特点**：

- 可根据硬件资源和数据特点调整

- 影响训练速度和模型泛化能力

- 适当设置可平衡计算效率和学习效果

- 受硬件内存限制

- 不同任务的最佳值差异大

- 可能需要配合调整学习率

**调整建议**：

- 小数据集：8-16较为合适

- 大数据集：32-256可提高效率

- 内存限制：根据GPU内存调整，避免OOM错误

#### 4️⃣ Epochs（训练轮数）

**基本介绍**：完整遍历训练数据的次数，决定模型学习的充分程度。

**生活类比**：

想象你在准备一门重要考试：

**训练轮数太少**（复习1-2遍）：

- 只粗略看了教材，没有掌握核心知识点

- 模型训练：参数还没调整到位，欠拟合

- 表现：训练和验证准确率都低

**训练轮数合适**（复习5-10遍）：

- 熟悉了所有重点内容，形成了知识体系

- 模型训练：参数调整到位，学到了数据中的规律

- 表现：训练和验证准确率都高

**训练轮数太多**（复习30-50遍）：

- 死记硬背每个细节，失去了灵活应用的能力

- 模型训练：过度拟合训练数据，记住了噪声

- 表现：训练准确率接近100%，验证准确率下降

**特点**：

- 简单易调整

- 直接影响模型学习程度

- 可通过早停机制自动确定最佳值

- 设置过多浪费计算资源

- 设置过少导致欠拟合

- 最佳值因任务而异

**调整建议**：

- 小数据集：通常需要更多轮次（100+）

- 大数据集：较少轮次可能足够（20-50）

- 最佳实践：配合Early Stopping使用，避免过拟合

#### 5️⃣ 网络层数和节点数 (Network Depth and Width)

**基本介绍**：决定模型复杂度和表达能力的结构参数。

**生活类比**：

想象你在设计一座大楼：

**层数少、节点少**（2-3层小楼）：

- 结构简单，造价低，但空间有限

- 模型：参数少，训练快，但表达能力有限

- 适用：简单任务，数据量小，需要快速训练

**层数适中、节点适中**（10层中等建筑）：

- 平衡了空间和造价，适合大多数需求

- 模型：参数适中，能力强，训练时间合理

- 适用：中等复杂任务，常规应用

**层数多、节点多**（100层摩天大楼）：

- 空间巨大，功能齐全，但造价高昂，建造复杂

- 模型：参数多，能力极强，但需要大量数据和计算资源

- 适用：复杂任务，大数据集，有充足计算资源

**特点**：

- 可根据任务复杂度灵活调整

- 直接决定模型表达能力

- 适当设计可平衡性能和效率

- 设计不当导致过拟合或欠拟合

- 层数过多可能导致梯度消失/爆炸

- 需要经验和实验才能找到最佳结构

**调整建议**：

- 简单任务：2-3层，每层节点适中（64-256）

- 复杂任务：逐步增加层数（5-20+），注意梯度消失问题

- 过拟合时：减少层数或节点数

- 欠拟合时：增加层数或节点数

#### 6️⃣ 优化器选择 (Optimizer Selection)

**基本介绍**：决定如何更新模型权重的算法，影响收敛速度和最终性能。

**生活类比**：

不同的优化器就像不同的交通工具，都能到达目的地，但方式不同：

**SGD**（随机梯度下降）- 自行车：

- 前进缓慢但稳定，可以到达狭窄小路

- 优点：稳定可靠，理论保证，最终性能通常好

- 缺点：速度慢，容易陷入局部最小值，需要精心调整学习率

**Momentum**（动量）- 汽车：

- 能够加速前进，有惯性可越过小坑洼

- 优点：比SGD快，能逃离浅的局部最小值

- 缺点：惯性有时会冲过最优点

**Adam**（自适应矩估计）- 智能汽车：

- 自动调整速度，适应道路情况

- 优点：收敛快，参数自适应，对初始学习率不敏感

- 缺点：有时最终性能不如SGD，可能过早停止

**AdamW**（带权重衰减的Adam）- 升级版智能汽车：

- 在Adam基础上增加了更好的控制系统

- 优点：结合了Adam的快速和更好的泛化能力

- 缺点：多一个超参数需要调整

**特点**：

- 不同优化器适应不同问题特点

- 可大幅提升训练速度和性能

- 某些优化器减少了手动调参需求

- 选择不当可能影响最终性能

- 某些优化器需要更多计算资源

- 可能需要针对优化器调整其他超参数

**调整建议**：

- 初学者：Adam是安全选择，收敛快且稳定

- 最终性能：SGD+动量可能获得更好泛化性能

- 特殊场景：RMSprop适合RNN，AdamW适合大模型

#### 7️⃣ 激活函数 (Activation Function)

**基本介绍**：为神经网络引入非线性，使其能学习复杂模式。

**生活类比**：

激活函数就像人的决策阈值，决定是否"激活"一个行动：

**ReLU**（线性整流函数）- 简单开关：

- 低于阈值不行动，高于阈值完全行动

- 优点：计算简单，减轻梯度消失，训练快

- 缺点：可能出现"死亡神经元"（永远不激活）

**Sigmoid**（S型函数）- 渐进开关：

- 从完全不行动到完全行动有平滑过渡

- 优点：输出范围固定(0-1)，适合二分类

- 缺点：容易导致梯度消失，训练深层网络困难

**Tanh**（双曲正切）- 平衡开关：

- 类似Sigmoid但输出范围是(-1,1)

- 优点：输出以0为中心，有助于下一层学习

- 缺点：仍有梯度消失问题

**LeakyReLU**（带泄漏的ReLU）- 改良开关：

- 类似ReLU，但低于阈值时仍有微小反应

- 优点：解决"死亡神经元"问题

- 缺点：增加了一个超参数（泄漏斜率）

**特点**：

- 引入非线性，使网络能学习复杂函数

- 不同激活函数适应不同任务特点

- 合适选择可加速训练、提高性能

- 选择不当可能导致训练困难

- 某些激活函数计算开销大

- 可能需要针对激活函数调整其他超参数

**调整建议**：

- 隐藏层：ReLU是首选，出现"死神经元"时考虑LeakyReLU

- 深层网络：GELU、Swish等新型激活函数可能表现更好

- 特殊层：输出层根据任务选择（Sigmoid、Softmax等）

#### 8️⃣ 网络初始化 (Network Initialization)

**基本介绍**：设置网络初始权重的方法，影响训练的起点和收敛性。

**生活类比**：

网络初始化就像运动员的起跑姿势：

**随机初始化**（标准做法）：

- 运动员采用标准起跑姿势，有一定随机性

- 优点：提供随机起点，避免对称性问题

- 缺点：可能起点不佳，训练困难

**零初始化**（不推荐）：

- 所有运动员站在同一位置，采用完全相同姿势

- 优点：简单实现

- 缺点：导致所有神经元学习相同特征，网络失去表达能力

**He初始化**（ReLU网络推荐）：

- 根据网络结构优化的起跑姿势，适合短跑

- 优点：专为ReLU激活函数设计，保持方差稳定

- 缺点：不适用于所有激活函数

**Xavier/Glorot初始化**（Sigmoid/Tanh网络推荐）：

- 另一种优化的起跑姿势，适合中长跑

- 优点：适合Sigmoid/Tanh激活函数，保持信号强度

- 缺点：不适合ReLU等现代激活函数

**特点**：

- 良好初始化可大幅加速收敛

- 避免训练早期的梯度消失/爆炸

- 减少训练不稳定性

- 选择不当可能导致训练失败

- 需要根据网络结构和激活函数选择

- 初始化方法众多，需要经验选择

**调整建议**：

- 一般情况：He初始化（ReLU网络）或Xavier/Glorot初始化（Sigmoid/Tanh网络）

- 深层网络：正交初始化可以帮助信号传播

- 迁移学习：使用预训练权重而非随机初始化

#### 9️⃣ 归一化方法 (Normalization Methods)

**基本介绍**：标准化数据或特征的技术，提高训练稳定性和速度。

**生活类比**：

归一化就像学校的标准化考试：

**无归一化**（原始数据）：

- 不同学校出的试卷难度不同，分数没有可比性

- 模型训练：不同特征量纲不同，大值特征主导训练

- 问题：训练不稳定，收敛慢

**BatchNorm**（批归一化）：

- 将同一批次学生的成绩调整到相同分布

- 优点：加速训练，允许更大学习率，减少内部协变量偏移

- 缺点：小批量效果差，推理时行为不同

**LayerNorm**（层归一化）：

- 将每个学生的所有科目成绩调整到相同分布

- 优点：适合RNN/Transformer，批量大小无关

- 缺点：不适合CNN，忽略了通道间差异

**GroupNorm**（组归一化）：

- 将学生的相关科目（如理科/文科）分组调整

- 优点：批量大小无关，保留部分通道信息

- 缺点：需要确定分组数量

**特点**：

- 加速网络收敛

- 减少梯度消失/爆炸问题

- 允许使用更大学习率

- 减少对初始化的敏感性

- 增加计算复杂度

- 某些情况下可能降低表达能力

- 不同任务需要不同归一化方法

**调整建议**：

- CNN：BatchNorm是标准选择

- RNN：LayerNorm更适合序列模型

- 小批量：GroupNorm或InstanceNorm更稳定

- 推理阶段：考虑使用固定的统计量（冻结BN）

#### 自动化调参 (Automated Hyperparameter Tuning)

**基本介绍**：使用算法自动寻找最佳超参数组合的方法。

**生活类比**：

想象你是一位厨师在尝试完善一道复杂菜肴的配方：

**手动调参**（传统方法）：

- 凭经验调整配料，每次尝试一种变化

- 优点：完全控制过程，理解每个变化的影响

- 缺点：耗时费力，难以探索所有可能性

**网格搜索**（Grid Search）：

- 系统地尝试每种配料的不同用量组合

- 优点：全面、彻底、易于理解

- 缺点：组合爆炸，计算开销大

**随机搜索**（Random Search）：

- 随机选择配料用量组合进行尝试

- 优点：效率高于网格搜索，容易实现

- 缺点：可能错过最佳组合

**贝叶斯优化**（Bayesian Optimization）：

- 根据之前尝试的结果，智能推测下一个可能的最佳配方

- 优点：高效，需要较少尝试次数

- 缺点：实现复杂，计算开销大

**特点**：

- 减少人工试错时间

- 可能发现人类难以发现的参数组合

- 系统化探索参数空间

- 计算资源消耗大

- 可能得到过拟合的参数组合

- 缺乏对参数影响的深入理解

**调整建议**：

- 小规模实验：网格搜索简单直观

- 计算资源有限：贝叶斯优化更高效

- 大型项目：考虑使用专业工具（Optuna、Ray Tune等）

#### 1️⃣1️⃣ 梯度裁剪 (Gradient Clipping)

**基本介绍**：限制梯度大小的技术，防止梯度爆炸和训练不稳定。

**生活类比**：

梯度裁剪就像汽车的限速器：

**无梯度裁剪**（无限速）：

- 汽车可能速度过快导致失控或事故

- 模型训练：梯度可能非常大，参数更新剧烈

- 问题：训练不稳定，可能永远不收敛

**按值裁剪(Value Clipping)**（固定限速，如100km/h）：

- 汽车速度不得超过固定值

- 模型训练：梯度绝对值超过阈值就被截断

- 特点：简单直接，但可能改变梯度方向

**按范数裁剪(Norm Clipping)**（智能限速系统）：

- 根据道路情况调整最大速度，但保持行驶方向

- 模型训练：保持梯度方向，只缩放大小

- 特点：保留更多信息，通常效果更好

**特点**：

- 防止梯度爆炸 (Gradient Explosion)

- 稳定训练过程

- 允许使用更大学习率

- 特别有利于RNN等容易出现梯度爆炸的网络

- 设置不当可能导致收敛变慢

- 可能掩盖模型或损失函数的设计问题

- 增加计算复杂度

**调整建议**：

- RNN/LSTM：几乎必须使用，通常设置为1.0-5.0

- 深层网络：有助于稳定训练，特别是学习率较大时

- 实施方法：按范数裁剪或按值裁剪

#### 1️⃣2️⃣ 标签平滑 (Label Smoothing)

**基本介绍**：一种正则化技术，通过软化目标分布减少过拟合。

**生活类比**：

想象你是老师在评分：

**无标签平滑**（传统评分）：

- 答案完全正确得满分(1.0)，错误得零分(0.0)

- 模型训练：目标是绝对确定的分类

- 问题：模型可能过度自信，泛化能力差

**有标签平滑**（灵活评分）：

- 答案正确得高分(0.9)，错误也有基础分(0.1)

- 模型训练：目标是略微不确定的分类

- 效果：模型不会过度自信，泛化能力更强

**标签平滑值的影响**：

- 0.0：无平滑，模型可能过度自信

- 0.1：轻微平滑，适合大多数情况

- 0.3：强平滑，适合噪声数据

- 0.5：极端平滑，模型难以学习

**特点**：

- 减少模型过度自信

- 提高泛化能力

- 对抗标签噪声

- 简单易实现

- 可能降低模型在训练集上的性能

- 设置过大会导致欠拟合

- 不适合所有任务（如需要精确概率的任务）

**调整建议**：

- 分类问题：设置为0.1是安全起点

- 数据有噪声：增加到0.2-0.3可能更好

- 数据很干净：可以使用较小值（0.05）或不使用

#### 1️⃣3️⃣ Early Stopping（早停机制）

**基本介绍**：监控验证集性能，在性能不再提升时自动停止训练的技术。

**生活类比**：

想象你在教孩子背诗：

- 第1遍：孩子磕磕绊绊，错误很多

- 第5遍：孩子能流利背诵，理解意思 ← 最佳状态

- 第10遍：孩子开始机械背诵，不理解意思

- 第20遍：孩子只会死记硬背，一变化就不会了 ← 过拟合

Early Stopping就像一个聪明的老师，在第5遍时说："好了，你已经学会了，不用再背了！"

**特点**：

- 自动找到最佳训练时机，不需要手动猜测轮数

- 节省训练时间和计算资源

- 有效防止过拟合，提高模型泛化能力

- 可能过早停止，导致欠拟合

- 需要额外的验证集

- 对耐心值(patience)敏感

**调整建议**：

- 耐心值(patience)：小数据集设置15-25，大数据集设置5-15

- 监控指标：通常监控验证损失或准确率

- 最小改善阈值：设置为0.001-0.01，避免微小波动触发停止

- 恢复最佳权重：务必保存并恢复验证性能最佳时的模型权重

#### 1️⃣4️⃣ 数据增强（Data Augmentation）

**基本介绍**：通过对训练数据进行变换创造新样本的技术，增加数据多样性。

**生活类比**：

想象你在教孩子认识"苹果"：

**不用数据增强**：

- 只给孩子看1张正面的红苹果照片

- 结果：孩子只认识正面的红苹果，看到侧面的或绿苹果就不认识了

**使用数据增强**：

- 给孩子看同一个苹果的多种变化：

- 旋转的苹果（不同角度）

- 不同光线下的苹果（明亮/昏暗）

- 不同颜色的苹果（红/绿/黄）

- 部分遮挡的苹果

- 加了噪点的苹果照片

- 结果：孩子能认识各种情况下的苹果！

**特点**：

- 用有限数据训练出更鲁棒的模型

- 有效防止过拟合

- 提高模型在真实世界的泛化能力

- 不需要额外收集数据

- 增强过度可能引入不真实的样本

- 增加训练时间

- 需要针对特定任务设计合适的增强方法

**调整建议**：

- 图像任务：翻转、旋转、缩放、裁剪、颜色变换

- 文本任务：同义词替换、回译、随机删除词

- 音频任务：时间拉伸、音调变化、添加噪声

- 增强强度：从温和开始，根据验证性能调整

- 验证/测试集：不应用增强，保持原始分布

#### 1️⃣5️⃣ 随机种子（Random Seed）

**基本介绍**：控制随机过程的起点，确保实验可重复性的关键参数。

**生活类比**：

想象你在玩一个随机生成地图的游戏：

**不固定种子**：

- 每次开始新游戏，地图完全不同

- 优点：体验多样性

- 缺点：无法重现特定地图，难以与朋友分享特定体验

**固定种子**：

- 输入相同的种子号码（如42、3407、114514），每次都生成完全相同的地图

- 优点：可以重现特定地图，与朋友分享相同体验

- 缺点：失去多样性

在深度学习中：

- **不固定种子**：每次训练结果不同，难以比较实验

- **固定种子**：确保相同条件下获得相同结果，便于实验对比

**特点**：

- 实验可重复，便于调试和比较

- 确保结果一致性

- 有助于科学研究的可验证性

- 可能掩盖模型对初始化敏感的问题

- 单一种子可能恰好表现特别好或特别差

- 限制了随机性带来的多样化探索

**调整建议**：

- 固定种子：设置所有相关库的随机种子（numpy, torch, random等）

- 多次运行：使用不同种子运行多次，评估模型稳定性

- 种子选择：任意整数都可以，常用42、3407、114514等

- 最佳实践：记录每次实验的种子值，确保结果可复现

####1️⃣6️⃣权重衰减 (Weight Decay)

**基本介绍**：一种正则化技术，通过在损失函数中添加权重惩罚项来减少过拟合。

**生活类比**：
权重衰减就像给运动员增加负重训练：

**无权重衰减**（自由训练）：
- 运动员可以随意发挥，但可能养成不良姿势
- 模型训练：权重可以任意增长，容易过拟合
- 问题：模型可能学习到训练数据中的噪声

**低权重衰减**（轻微负重）：
- 运动员带着轻微负重，保持良好姿势但不影响发挥
- 模型训练：权重增长受到轻微限制，减轻过拟合
- 效果：平衡了拟合能力和泛化能力

**高权重衰减**（重度负重）：
- 运动员负重过大，动作受限，难以发挥
- 模型训练：权重被严格限制，可能欠拟合
- 问题：模型表达能力下降，无法充分学习数据特征

**特点**：
- 简单有效的正则化方法
- 防止权重值过大，减少过拟合 (Overfitting)
- 鼓励模型学习更简单的特征
- 与L2正则化 (L2 Regularization) 数学上等价
- 设置过大会导致欠拟合 (Underfitting)
- 不同层可能需要不同的衰减率
- 与优化器的学习率相互影响

**调整建议**：
- 初始值：通常从0.0001-0.001开始
- 过拟合严重：增加到0.01-0.1
- 欠拟合明显：减小到0.00001或完全移除
- 与优化器匹配：AdamW优化器专门设计用于正确实现权重衰减

####1️⃣7️⃣ Dropout Rate（丢弃率）(Dropout Rate)

**基本介绍**：训练时随机关闭一部分神经元的正则化技术，防止网络过度依赖某些特征。

**生活类比**：
Dropout就像团队协作中的"轮岗训练"：

**无Dropout**（固定团队）：
- 团队成员角色固定，相互依赖性强
- 模型训练：神经元间形成强依赖，容易过拟合
- 问题：如果某些关键成员缺席，整个团队可能崩溃

**低Dropout**（轻度轮岗，如0.2）：
- 20%的团队成员轮换岗位，培养多技能
- 模型训练：神经元有轻微独立性，减轻过拟合
- 效果：保持性能的同时提高鲁棒性

**高Dropout**（大规模轮岗，如0.5-0.7）：
- 50-70%的成员轮换，每个人必须掌握多种技能
- 模型训练：神经元高度独立，强力对抗过拟合
- 问题：设置过高可能导致信息传递不足，性能下降

**特点**：
- 简单实现但非常有效的正则化方法
- 训练时随机"关闭"神经元，测试时全部"打开"
- 模拟集成多个子网络的效果 (Model Ensemble)
- 防止特征共适应 (Co-adaptation)
- 不同层可能需要不同的丢弃率
- 增加了训练时间和波动性
- 测试时需要进行缩放调整 (Scaling Adjustment)

**调整建议**：
- 输入层：较低丢弃率（0.1-0.2）或不使用
- 隐藏层：中等丢弃率（0.3-0.5）

-最后隐藏层：较高丢弃率（0.4-0.7）
-小数据集：使用较低丢弃率
-大数据集：可以使用较高丢弃率
-CNN：通常使用较低丢弃率或使用空间Dropout
-过拟合严重：逐步增加丢弃率

### 实战调参策略

#### 调参顺序建议

1.首先确保数据质量和预处理（数据决定上限）
2.选择合适的模型架构（基础框架）
3.设置合理的初始学习率和批次大小（训练基础）
4.添加基本正则化（权重衰减和Dropout）
5.训练初始模型，观察学习曲线（诊断问题）
6.根据学习曲线调整学习率策略和正则化强度
7.微调网络结构和其他超参数（精细调整）
8.添加高级技巧（数据增强、标签平滑等）
9.使用集成或蒸馏方法进一步提升（最终优化）

#### 常见问题及解决方案

过拟合问题：

-减少模型复杂度（减少层数或每层节点数）

-增加Dropout（隐藏层0.3-0.5，输入层0.1-0.2）

-考虑添加BatchNorm或LayerNorm

-添加权重衰减（从0.001开始，视情况增加到0.01-0.1）
-使用数据增强（根据数据类型选择合适的增强方法）
-应用标签平滑（通常设置为0.1-0.2）
-应用早停（Early Stopping，耐心值设为10-20）

欠拟合问题：

-增加模型复杂度（增加层数或节点数）
-减少正则化强度（降低Dropout率和权重衰减）
-使用更强大的模型架构（如ResNet、Transformer等）
-增加训练轮数（配合学习率调度）
-检查学习率是否过大或过小（尝试学习率范围测试）
-确保数据预处理适当（检查归一化、标准化等）
-考虑使用更强大的优化器（如AdamW）

训练不稳定：

-降低学习率（减小到当前值的1/3或1/10）
-使用梯度裁剪（设置为1.0-5.0）
-检查数据归一化（确保输入数据已正确标准化）
-使用学习率预热（前5-10个epoch逐渐增加学习率）
-尝试不同的优化器（Adam通常比SGD更稳定）
-调整批次大小（增大可提高稳定性，但注意内存限制）
-检查权重初始化方法（使用He或Xavier/Glorot初始化）

**训练速度慢**：
-增加批次大小（在内存允许范围内）
-使用混合精度训练（FP16加速）
-简化模型结构（减少不必要的复杂度）
-使用更高效的优化器（如Adam、AdamW）
-应用学习率调度（如OneCycleLR）
-考虑使用更快的硬件或分布式训练

### 高级调优技巧

#### 学习率调度策略

-余弦退火 (Cosine Annealing)：学习率平滑周期性变化，通常效果最好
-步进衰减 (Step Decay)：每隔固定轮数降低学习率（如每30轮降低10倍）
-OneCycleLR：先增后减，可加速收敛，减少训练时间
-ReduceLROnPlateau：验证指标停滞时自动降低学习率，适应性强
-学习率预热 (Learning Rate Warmup)：训练初期使用较小学习率，逐渐增加

#### 集成学习方法

-**模型平均 (Model Averaging)**：训练多个模型取平均，稳定且有效
-**交叉验证集成 (Cross-validation Ensemble)**：使用不同折的模型组合预测
-**Snapshot集成 (Snapshot Ensemble)**：利用学习率周期中的多个检查点
-**Stacking**：使用元模型组合基模型预测，提升性能上限
-**知识蒸馏 (Knowledge Distillation)**：用大模型指导小模型学习

#### 超参数重要性排序（从高到低）

-网络架构（层数/宽度，决定模型容量）

-学习率（决定收敛速度和稳定性）
-批次大小（影响优化方向和训练稳定性）
-优化器选择（影响收敛特性和最终性能）
-正则化参数（Dropout率/权重衰减，控制过拟合）
-学习率调度策略（影响训练过程和最终性能）
-激活函数（影响网络表达能力和训练难度）
-初始化方法（影响训练初期行为）
-归一化方法（影响训练稳定性）
-其他细节参数（如动量值、epsilon值等）

### 总结

深度学习调参是一门平衡的艺术，需要理解各参数的作用并根据具体任务灵活调整。记住：
-没有放之四海而皆准的最佳参数，需要针对具体任务调整
-从简单开始，逐步复杂化，避免一开始就使用所有技巧
-一次只改变一个参数，以便理解每个变化的影响
-保持良好的实验记录，包括所有超参数和结果
-理解原理比死记硬背更重要，知道"为什么"比知道"是什么"更有价值
-正则化技术（Dropout、权重衰减、标签平滑等）通常需要组合使用
-学习率和批次大小的调整往往需要配合进行

你可能感兴趣的:(深度学习知识和技巧,深度学习,人工智能,python)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
15个小技巧，让我的Windows电脑更好用了！曹元_
01.桌面及文档处理第一部分的技巧，主要是围绕桌面的一些基本操作，包括主题设置、常用文档文件快捷打开的多种方式等等。主题换色默认情况下，我们的Win界面可能就是白色的文档界面，天蓝色的图表背景，说不出哪里不好看，但是就是觉得不够高级。imageimage说到高级感，本能第一反应就会和暗色模式联想起来，如果我们将整个界面换成黑夜模式的话，它会是这样的。imageimage更改主题颜色及暗色模式，我们
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
月光下的罪恶（5）允歌玖沐
5.被孤立顾纨是转校过来的，进入学校后，回头率很高“诶诶诶，你看那女生，哪个系的？”“不知道没见过。”“看那样，一看就是个胆小的货。”顾纨当做没听到，更狠的话她都听过，更何况女生们耍心眼？“他爸爸是做黑生意的，估计女儿也不是什么好的，你以后离他一家子远点。”她走向自己要上课的教室，一进门，所有人的目光看向她，顾纨若无其事的走进教室，开始上课。下课，一群人站起来，但是很显然，她周围的一圈人都不愿意和
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
三件事—小白猫·雨天·八段锦咸鱼月亮
1.最近楼下出现一只非常漂亮的粘人小白猫，看着不像是流浪猫，非常亲人。眼睛比蓝球的还大，而且是绿色的，很漂亮。第一次遇到它，它就跟我到电梯口，如果我稍微招招手，肯定就跟我进电梯了。后来我喂过它几次，好可惜不能养它，一只蓝球就是我的极限了。2.下雨天就心烦，好奇怪。明明以前我超爱看窗外的雨和听雨声，看来近来的心情不够宁静了。3.最近在练八段锦，从第一次就爱上了这个运动，很轻松缓慢，但是却出汗。感觉可
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
2023-11-02 一帆f
发现浸润心田的感觉：今天一个机缘之下突然想分享我的婆媳关系，我一边分享一边回忆我之前和儿媳妇关系的微妙变化，特别是分享到我能感受到儿媳妇的各种美好，现在也能心平气和的和老公平等对话，看到自己看到老公，以己推人以人推己自然而然的换位思考，心中有一种美好的能量在涌动，一种浸润心田的感觉从心胸向全身扩散，美好极了……我很想记住这种感觉，赶紧把它写下来以留纪念，也就是当我看见他人的美好，美好的美妙的浸润心
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
日更50天有什么收益？星湾二宝
坚持在平台上日更50天了，平台也为我生成了日更50天徽章，小开心一下这份坚持。日更50天徽章那坚持50天都有哪些收益呢？收益一，就是最直观的那些钻和贝，我这边确实不太高，但是这些贝足够支撑我保持会员的资格，能够在发文的时候帮助友友们去除广告，方便阅读。钻和贝收益二，文章的收获，日更50天，坚持写作3.7万文字，书写的文字也从开始的流水账/碎碎念逐渐加入自己的思考和观点。以前，一个念头会一晃而过，如
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
关于流媒体播放器EasyPlayer和EasyPlayerPro的介绍以及其区别 EasyDarwin EasyDarwin 音视频 ffmpeg 人工智能大数据 ar
EasyPlayer是一款流媒体播放器系列项目，它支持多种流媒体协议的播放，包括但不限于RTSP、RTMP、HTTP、HLS、UDP、RTP、File等。除此之外，EasyPlayer还支持本地文件播放和多种功能特性，包括本地抓拍、本地录像、播放旋转、多屏播放、倍数播放等。EasyPlayer核心基于ffmpeg，稳定、高效、可靠、可控。随着多年的不断发展和迭代，EasyPlayer基于成功的实践
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
2022-04-07 上善若水1979527
昨天苏阿姨来给我送普门品！和她一块来的还有另外一个阿姨！我下去拿时！那阿姨说你不是干房产的小赵！帮我租房的！我说你认识我？对啊！你帮我租的房子！我没印象了！我和保红一块！我说我想起来了阿姨！你这运动服一换！小电车一骑！一下年轻十岁我早记不得了！我只记得一九年五一带看了河滨美航还有德胜的好多套房子！你都不当意！你告诉我你每晚拜观音菩萨说快让小赵普萨帮我找套合适的房子吧！我把本子上记得半年内的德胜房源
互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
《实际生活是我们的指南针》——教育中寻找曙光托克托126何芳
陶行知先生的文章相对《致青年教师》比较难理解，但是他热爱学生,在书中处处能感受到。在《实际生活是我们的指南针》文中他说道:“我虽觉得我有好多地方可以帮助诸位,但指志针确是有些不敢当。我和诸位同是在乡村里摸路的人。我们的真正指南针只是实际生活。”这些话不仅使人感到他非常谦虛,既不夸大自己的作用也不轻视自己的作用。图片发自App我们的真正指南针只是实际生活。实际生活向我们供给无穷的问题,要求不断的解决
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
车载刷写架构 --- 整车刷写中为何增加了ECU 队列刷写策略？汽车电子实验室电子电器架构——刷写方案车载电子电气架构架构开发语言车载诊断进阶篇汽车中央控制单元HPC软件架构关于网关转发性能引起的思考
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：周末洗了一个澡，换了一身衣服，出了门却不知道去哪儿，不知道去找谁，漫无目的走着，大概这就是成年人最深的孤独吧!旧人不知我近况，新人不知我过往，近况不该旧人知，过往不与新人讲。纵你阅人何其多，再无一人恰似我。时间不知不觉中，来到新的一年。2025开始新的忙碌。成年人的我也不知道去哪里渡
车载诊断架构 ---面向售后的DTC应该怎么样填写？汽车电子实验室车载电子电气架构漫谈UDS诊断协议系列 EV（电动汽车）常规知识必备架构面向售后的DTC 车载诊断架构 OEM怎么掌握软件开发能力车载通信网络槪述 android ZEVonUDS-J1979
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：简单，单纯，喜欢独处，独来独往，不易合同频过着接地气的生活，除了生存温饱问题之外，没有什么过多的欲望，表面看起来很高冷，内心热情，如果你身边有这样灵性的人，一定要好好珍惜他们眼中有神有光，干净，给人感觉很舒服，有超强的感知能力有形的无形的感知力很强，能感知人的内心变化喜欢独处，好静，
车载诊断架构 --- 关于诊断时间参数P4的浅析汽车电子实验室车载电子电气架构漫谈UDS诊断协议系列架构开发语言关于网关转发性能引起的思考汽车中央控制单元HPC软件架构车载诊断进阶篇
关于诊断时间参数P4的浅析我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：所谓鸡汤，要么蛊惑你认命，要么怂恿你拼命，但都是回避问题的根源，以现象替代逻辑，以情绪代替思考，把消极接受现实的懦弱，伪装成乐观面对不幸的豁达，往不幸上面喷“香水”来掩盖问题。无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事.而不是让内心的烦
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

深度学习核心知识简介和模型调参

### 核心参数及其影响

#### 1️⃣ Loss（损失函数）

#### 2️⃣ Learning Rate（学习率）

#### 3️⃣ Batch Size（批次大小）

#### 4️⃣ Epochs（训练轮数）

#### 5️⃣ 网络层数和节点数 (Network Depth and Width)

#### 6️⃣ 优化器选择 (Optimizer Selection)

#### 7️⃣ 激活函数 (Activation Function)

#### 8️⃣ 网络初始化 (Network Initialization)

#### 9️⃣ 归一化方法 (Normalization Methods)

#### 自动化调参 (Automated Hyperparameter Tuning)

#### 1️⃣1️⃣ 梯度裁剪 (Gradient Clipping)

#### 1️⃣2️⃣ 标签平滑 (Label Smoothing)

#### 1️⃣3️⃣ Early Stopping（早停机制）

#### 1️⃣4️⃣ 数据增强（Data Augmentation）

#### 1️⃣5️⃣ 随机种子（Random Seed）

####1️⃣6️⃣权重衰减 (Weight Decay)

####1️⃣7️⃣ Dropout Rate（丢弃率）(Dropout Rate)

### 实战调参策略

#### 调参顺序建议

**过拟合问题**：

**欠拟合问题**：

**训练不稳定**：

### 高级调优技巧

#### 学习率调度策略

#### 集成学习方法

#### 超参数重要性排序（从高到低）

### 总结

你可能感兴趣的:(深度学习知识和技巧,深度学习,人工智能,python)

过拟合问题：

欠拟合问题：

训练不稳定：