无敌悦悦王

【深度学习基础/面试高频问题】归一化-为何BN层能帮助模型优化

深度学习基础知识

- 为何BN能够帮助训练优化
- - 1、发现问题
  - 2、BatchNorm 的性能是否源于控制内部协变量偏移？
  - 3、为什么BatchNorm有效？
  - - 1）BatchNorm的平滑效果
    - 2）优化景观的探索
    - 3）BatchNorm 是平滑景观的最佳（唯一？）方法吗？
  - 4、理论分析
  - 5、相关工作
  - 6、结论

参考文献：
1、How Does Batch Normalization Help Optimization?How Does Batch Normalization Help Optimization?

为何BN能够帮助训练优化

总结于论文：How Does Batch Normalization Help Optimization?How Does Batch Normalization Help Optimization?

尽管BN很普遍，但BN有效性的原因并不明确，普遍的看法是这种有效性来源于“控制训练过程中层输入分布的变化，以减少所谓的内部协变量偏移”，但这项工作中我们证明这种层输入的分布稳定性与与BN的成功关系不大，相反，使得BN成功的关键在于“使得优化过程中的损失函数表面更加平滑，有助于梯度下降算法更加稳定，能够有效的找到损失函数最小值”。

目前，BatchNorm 成功的最广泛接受的解释，以及它最初的动机，与所谓的内部协变量偏移（ICS）有关。非正式地说，ICS指的是由于前一层的更新导致的层输入分布的变化。人们推测这种持续的变化对训练产生负面影响。BatchNorm 的主要目标是减少ICS，从而缓解这种影响。

我们的贡献。我们的起点是证明BatchNorm 的性能提升与内部协变量偏移的减少之间似乎没有联系。或者这种联系最多是脆弱的。事实上，我们发现BatchNorm 在某种意义上甚至可能没有减少内部协变量偏移。

然后我们将注意力转向识别BatchNorm 成功的根源。具体来说，我们证明BatchNorm 以一种基本方式影响网络训练：它使相应优化问题的景观显著更平滑。这确保了，特别是梯度更可预测，从而允许使用更大的学习率范围和更快的网络收敛。我们还提供了这些发现的实证演示以及它们的理论依据。我们证明，在自然条件下，BatchNorm 模型中的损失和梯度（也称为 β-平滑性[21]）的 Lipschitz 连续性都得到了改善。

最后，我们发现这种平滑效果并非BatchNorm 独有。许多其他自然归一化技术具有类似的（有时甚至更强）效果。特别是，它们在训练性能上都提供了类似的改进。

我们相信，理解BatchNorm 等基本技术的根本原因将使我们对神经网络训练的潜在复杂性有更深刻的把握，并反过来，将为这一背景下的进一步算法进步提供信息。

1、发现问题

作者通过可视化VGG16网络的训练过程发现，加了BN层后的model确实表现更好。但是可视化中间特征层输出数值分布后，发现有无BN层对于数值分布的稳定性而言并没有太大差异。
图图1：比较了(a) 训练（优化）和 (b) 测试（泛化）性能，这些性能是在一个标准 VGG 网络在 CIFAR-10 上训练时，使用和不使用 BatchNorm 的结果（详细信息见附录 A）。在带有 BatchNorm 层的模型中，训练速度有一致的提升。© 尽管 BatchNorm 和非 BatchNorm 网络之间的性能差距很明显，但层输入分布的演变差异似乎不那么显著。（在这里，我们采样了给定层的激活值，并可视化了它们在训练步骤中的分布。）

我们首先研究ICS 与 BatchNorm 之间的联系。具体来说，我们首先在 CIFAR-10 [15] 上训练一个标准的 VGG [26] 架构，使用和不使用 BatchNorm。正如预期的，图1(a) 和 (b) 显示了使用 BatchNorm 层训练的网络在优化和泛化性能方面的显著改进。然而，图1© 呈现了一个令人惊讶的发现。在这张图中，我们通过绘制训练过程中随机输入的分布（跨一个批量）来可视化 BatchNorm 在多大程度上稳定了层输入的分布。令人惊讶的是，有无 BatchNorm 层的网络在分布稳定性（均值和方差的变化）的差异似乎微不足道。这一观察引发了以下问题：(1) BatchNorm 的有效性确实与内部协变量偏移有关吗？(2) BatchNorm 对层输入分布的稳定化甚至在减少 ICS 方面有效吗？

2、BatchNorm 的性能是否源于控制内部协变量偏移？

BN层是否有效是否是源于输入值的稳定性？即数值分布相同？
在此，作者做了三个model：1、没有＋BN层的VGG16网络，定义为base model 2、加了BN层的vgg16网络，定义为normal model 3、在BN层后加上噪声扰动的model，定义为noisy model
结果发现:
1、noisy model和normal model的表现一样，都优于base model
2、比较数值分布稳定性会发现，noisy mode的分布l比base model的分布更不稳定
由此可以说明，并不是因为BN让输入分布更加统一才使得model更易训练收敛

之前的核心论断是，控制层输入分布的均值和方差直接与改善的训练性能相关。然而，我们能否证实这一论断？

我们提出了以下实验。我们在 BatchNorm 层之后注入随机噪声来训练网络。具体来说，我们使用从非零均值和非单位方差的分布中采样的独立同分布（i.i.d.）噪声扰动每个小批量中每个样本的每个激活值。我们强调这种噪声分布在每个时间步都会变化（详见附录 A 中的实现细节）。

图2：分布稳定性与 BatchNorm 性能之间的联系：我们比较了未经过 BatchNorm 训练的 VGG 网络（标准）、经过 BatchNorm 训练的网络（标准+BatchNorm）以及在 BatchNorm 层中显式添加了“协变量偏移”的网络（标准+“有噪声”BatchNorm）。
在后一种情况中，我们通过向每个批次归一化的激活值独立添加随时间变化的、非零均值和非单位方差的噪声来引入分布不稳定性。“有噪声”BatchNorm 模型几乎与标准 BatchNorm 模型的性能相匹配，尽管完全失去了分布稳定性。我们采样了给定层的激活值，并可视化了它们的分布（也参见图7）。

请注意，这种噪声注入产生了严重的协变量偏移，使得每次时间步的激活值发生偏斜。因此，层中的每一单元在每个时间步都会经历不同的输入分布。然后我们测量这种故意引入的分布不稳定性对 BatchNorm 性能的影响。图2 可视化了标准、BatchNorm 和我们的“有噪声”BatchNorm 网络的训练行为。显示了三个网络中相同深度的层的激活值分布随时间的变化。

观察到带有 BatchNorm 层的模型和“有噪声”BatchNorm 层的模型之间的性能差异几乎不存在。此外，这两个网络的表现都比标准网络要好得多。而且，“有噪声”BatchNorm 网络的分布甚至比标准非 BatchNorm 网络更不稳定，但它在训练方面仍然表现更好。为了从噪声的大小来看，我们在图7中绘制了选定层的随机激活值的均值和方差。此外，向标准（非 BatchNorm）网络的激活值添加相同数量的噪声会完全阻止其训练。显然，这些发现很难与 BatchNorm 的性能增益源于层输入分布稳定性增加的论断相协调。

3、为什么BatchNorm有效？

除了减少输出的差异以外，Ioffe 和 Szegedy [10] 还确定了 BatchNorm 的一些额外属性。这些属性包括防止梯度爆炸或消失、对不同设置的超参数（如学习率和初始化方案）的鲁棒性，以及使大多数激活值远离非线性区域的饱和区域。所有这些属性显然对训练过程有益。但它们是 BatchNorm 机制的相当简单的结果，并没有揭示出导致 BatchNorm 成功的根本因素。这里是否有更基本的现象在起作用？

1）BatchNorm的平滑效果

实际上，我们确定了 BatchNorm 对训练过程的关键影响：它重新参数化了底层优化问题，使其景观显著更平滑。这种影响的第一个表现是损失函数的 Lipschitz 连续性的改善。也就是说，损失的变化率更小，梯度的大小也更小。然而，还有一个更强烈的效果在起作用。即 BatchNorm 的重新参数化使损失的梯度也更 Lipschitz。换句话说，损失表现出显著更好的“有效” β-平滑性。

这些平滑效果以主要方式影响训练算法的性能。要理解为什么，请回想一下，在标准的（非 BatchNorm）深度神经网络中，损失函数不仅非凸，而且往往有许多“凹陷”，平坦区域和尖锐的局部最小值 [17]。这使得基于梯度下降的训练算法不稳定，例如，由于梯度爆炸或消失，以及因此对学习率和初始化的选择高度敏感。

现在，BatchNorm 重新参数化的关键含义是它使梯度更可靠和可预测。毕竟，梯度的 Lipschitz 连续性的改善使我们有信心，当我们在计算出的梯度方向上迈出更大的步伐时，这个梯度方向仍然是实际梯度方向的相当准确的估计。因此，它使得任何（基于梯度的）训练算法能够采取更大的步骤，而不会遇到突然变化的损失景观，如平坦区域（对应梯度消失）或尖锐的局部最小值（导致梯度爆炸）。这反过来又使我们能够使用更广泛的（因此更大）的学习率（见附录 B 中的图10），并且总体上使训练显著更快，对超参数选择的敏感性更低。（这也说明了我们之前讨论的 BatchNorm 属性如何可以被视为这种平滑效果的体现。

2）优化景观的探索

图4：VGG网络优化景观的分析。在特定的训练步骤中，我们测量了损失的变化（阴影区域）(a)以及当我们沿着梯度方向移动时梯度的“有效”β-平滑性（c）的二阶变化(b)。在所有这些测量中，带有BatchNorm的网络都显示出了明显的改进，表明损失景观的行为更加稳定。（在这里，我们将最大距离限制为η=0.4×梯度，因为对于更大的步长，标准网络的表现会更差（见图1）。然而，BatchNorm即使在更大的距离上也继续提供平滑效果。）请注意，这些结果得到了我们理论发现的支持（第4节）。

为了展示批量归一化（BatchNorm）对损失本身稳定性（即其利普希茨性）的影响，对于训练过程中的每一步，我们计算该步的损失梯度，并测量沿着该方向移动时损失的变化——见图4（a）。我们发现，与使用批量归一化的情况相比，普通（即非批量归一化）网络的损失在梯度方向上的值范围非常宽，尤其是在训练的初始阶段。（在后期阶段，网络已经接近收敛。）

同样，为了说明梯度的稳定性和可预测性的增加，我们对训练中某一点的损失梯度与沿原始梯度方向不同点对应的梯度之间的`2距离进行了类似的测量。图4（b）显示了普通网络和批量归一化网络在梯度可预测性方面存在显著差异（接近两个数量级），尤其是在训练初期。
为了进一步展示批量归一化对损失梯度的稳定性和利普希茨性的影响，**我们在图4（c）中绘制了普通网络和批量归一化网络在整个训练过程中的“有效”β平滑性。（“有效”在这里指的是测量我们沿着梯度方向移动时梯度的变化。）**同样，我们观察到这些网络之间存在一致的差异。
我们通过考虑线性深度网络来补充上述检查：如附录B中的图9和图12所示，批量归一化的平滑效果在那里也存在。

最后，我们强调，尽管我们的探索集中在梯度方向上的损失行为（因为它们是从训练过程的角度来看至关重要的），但当我们检查其他（随机）方向时，损失的行为也是类似的。

3）BatchNorm 是平滑景观的最佳（唯一？）方法吗？

鉴于我们对批量归一化及其有效性根源的新理解，自然会想：这种平滑效果是批量归一化的独特特征吗？或者可以用其他归一化方案实现类似的效果？

为了回答这个问题，我们研究了几种基于自然数据统计的归一化策略。具体来说，我们研究了固定激活函数的一阶矩（如批量归一化所做），然后通过其p范数的平均值对它们进行归一化的方案，其中p = 1, 2, ∞。注意，对于这些归一化方案，层输入的分布不再像高斯分布
（见图14）。因此，使用这种p范数进行归一化不再能保证对分布矩或分布稳定性有任何控制。

结果见附录B中的图13、11和12。我们观察到所有归一化策略都提供了与批量归一化相当的性能。实际上，对于深度线性网络，1归一化甚至比批量归一化表现得更好。注意，从定性上看，p归一化技术导致的分布偏移（如[10]中所考虑的）比普通（即未归一化）网络更大，但它们仍然产生了改进的优化性能。此外，所有这些技术都导致了景观的平滑性得到改善，类似于批量归一化的效果。（见附录B的图11和12。）这表明批量归一化对训练的积极影响可能在某种程度上是偶然的。因此，进行归一化方案设计空间的系统探索可能是有价值的，因为它可以带来更好的性能。

4、理论分析

“俺不中嘞，理论分析好繁琐，感兴趣的可以自己看”

图5：我们在理论分析中比较的两种网络架构：（a）普通的深度神经网络（DNN）（没有批量归一化层）；（b）与（a）中相同的网络，但在全连接层W之后插入了一个批量归一化层。（两个网络中所有层的参数值完全相同。）

5、相关工作

许多归一化方案被提出作为批量归一化的替代方案，包括在层之间进行归一化[1]、在小批量的子集上进行归一化[31]，或者在图像维度上进行归一化[30]。权重归一化[24]采用了一种补充方法，归一化权重而不是激活函数。最后，ELU[3]和SELU[13]是两个提出的非线性例子，它们具有逐渐衰减的斜率而不是急剧饱和，并且可以用作批量归一化的替代品。这些技术提供了与批量归一化相当的改进，但没有试图解释批量归一化的成功。

此外，关于深度神经网络（DNN）优化的研究揭示了批量归一化的其他好处。Li等人[9]观察到，使用批量归一化的网络倾向于依赖较少的参数初始化来进行优化轨迹。Balduzzi等人[2]观察到，没有使用批量归一化的模型倾向于遭受不同梯度坐标和/或单元激活之间的相关性较小的问题。他们报告说，这种行为在更深的模型中更为显著，并且认为这是DNN优化的一个障碍。Morcos等人[19]关注DNN的泛化特性。他们观察到，使用批量归一化会导致模型较少依赖激活空间中的单一方向，他们发现这与模型的泛化特性有关。

最近的研究[14]确定了一些简单的、具体的设置，在这些设置中，使用批量归一化的训练变体可以证明比标准训练算法有所改进。主要思想是，解耦权重的长度和方向（如批量归一化和权重归一化[24]所做的）可以在很大程度上被利用。通过设计分别优化这些参数的算法，并使用（不同的）自适应步长，可以为这些问题实现显著更快的收敛速率。

6、结论

在这项工作中，我们研究了批量归一化（BatchNorm）作为一种用于训练深度神经网络的技术的有效性根源。我们发现，批量归一化的性能与内部协变量偏移之间广泛被认为存在的联系，充其量也是脆弱的。特别是，我们证明了内部协变量偏移的存在，至少从通常采用的分布稳定性角度来看，并不是训练性能的良好预测指标。此外，我们还表明，从优化的角度来看，批量归一化甚至可能并没有减少这种偏移。

相反，我们发现批量归一化对训练过程有一个关键的影响：它重新参数化了底层的优化问题，使其更加稳定（在损失的利普希茨性意义上）和平滑（在损失的“有效”β平滑性意义上）。这意味着用于训练的梯度更具预测性且表现良好，从而能够实现更快、更有效的优化。这种现象还解释并涵盖了批量归一化之前观察到的一些其他好处，例如对超参数设置的鲁棒性以及避免梯度爆炸/消失。

我们还表明，这种平滑效果并非批量归一化所独有。实际上，其他几种自然的归一化策略也有类似的影响，并带来了相当的性能提升。
我们相信，这些发现不仅挑战了关于批量归一化的传统观点，而且使我们更接近于更好地理解这一技术。我们还将这些结果视为一个机会，鼓励社区对深度学习的算法工具箱及其有效性的基础进行更系统的研究。

最后，我们的关注点在于批量归一化对训练的影响，但我们的发现或许也能为理解批量归一化倾向于改善泛化性能提供一些线索。具体来说，有可能是批量归一化的重新参数化所产生的平滑效果促使训练过程收敛到更平坦的最小值。人们认为这样的最小值有助于实现更好的泛化[8, 11]。
我们希望未来的研究能够调查这一引人入胜的可能性。

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
如何学好图像处理——从小白到大神？ chentengkui 图像处理
如何学好图像处理——从小白到大神？标签：图像处理学习方法2016-02-2617:4818439人阅读评论(25)收藏举报分类：学习方法与方法论（13）版权声明：本文为博主原创文章，未经博主允许不得转载。什么是数字图像处理？历史、以及它所研究的内容。说起图像处理，你会想到什么？你是否真的了解这个领域所研究的内容。纵向来说，数字图像处理研究的历史相当悠久；横向来说，数字图像处理研究的话题相当广泛。数
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
学苑教育杂志《学苑教育》杂志社学苑教育编辑部2025年第21期目录 QQ296078736 人工智能
专题研究推进“教-学-评”一体化，打造小学语文高效课堂刘月兰;4-6教育管理新高考制度下普通高中生涯教育课程设计的研究霍亚贞;马玲;7-9课堂教学核心素养下小学数学深度学习课堂的构建策略康贵景;10-12“双减”背景下初中英语教学的课堂模式高燕;13-15小学低年级数学说理课堂构建策略玉洁;16-18基于法治观念培育的道法课项目式教学策略许静;19-21“双师课堂”在初中语文写作教学中的实践孙巧玲
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户