生成式深度学习(第二版)-译文-第十章-高级生成对抗网络 (II)

[1] 生成式建模概述
[2] Transformer I，Transformer II
[3] 变分自编码器
[4] 生成对抗网络，高级生成对抗网络 I，高级生成对抗网络 II
[5] 自回归模型
[6] 归一化流模型
[7] 基于能量的模型
[8] 扩散模型 I, 扩散模型 II

本篇接自上篇博客高级生成对抗网络 (I)

自适应实例归一化 (Adaptive Instance Normalization)

AdaIN层是一种可以使用参考风格偏置 $\mathbf{y}_{b,i}$ 以及和尺度 $\mathbf{y}_{s,i}$ 来分别调整每个特征图 $\mathbf{x}_i$ 之均值和方差的神经网络层。两个向量长度都等于合成网络中前序卷积层的输出通道数。AdaIN的公式如下所示:
$AdaIN(\mathbf{x}_i,\mathbf{y}) = \mathbf{y}_{s,i} \frac{\mathbf{x}_i-\mu(\mathbf{x}_i)}{\sigma(\mathbf{x}_i)} + \mathbf{y}_{b,i}$

AdaIN层通过阻止风格信息在层间泄露来确保注入到每层的风格向量只影响该层的特征。论文作者展示的结果表明隐空间 $\mathbf{w}$ 相比于原始的 $\mathbf{z}$ 向量明显要更加解耦合。

因为合成网络是基于 ProGAN架构，所以它是渐进式训练的。合成网络早期层(当图像分辨率处于最低时 — 4x4, 8x8)的风格向量相比于网络后期(图像分辨率从64x64 到 1024x1024时)会在影响更粗粒度的特征。这意味着我们通过隐向量 $\mathbf{w}$ 不仅对生成图像有更完整的控制，而且可以在合成网络的不同点上切换 $\mathbf{w}$ 以改变不同层次细节的风格。

风格混合 (Style Mixing)

论文的作者使用了一个名为技巧 风格混合 的技巧来确保生成器在训练过程中不会利用相邻风格的关系(也即，注入到每层的风格尽可能解耦合)。作者不是仅仅使用了一个单一的隐向量 $\mathbf{z}$ ，而是采样了两个 $(\mathbf{z}_1, \mathbf{z}_2)$ ，对应两个风格向量 $\mathbf{w}_1，\mathbf{w}_2$ 。然后在每一层， $\mathbf{w}_1$ 或 $\mathbf{w}_2$ 随机选择，以此打破向量间任何可能的相关性。

统计变化 (Stochastic Variation)

合成网络在每个卷积层之后加上噪声 (通过一个学到的广播层 B) 以覆盖一些随机细节如个性化头发，或者脸部背后的背景。同样的，噪声注入的层级深度影响其对图像粗细力度的影响。

这也意味着合成网络的初始输入可以简单的是一个学到的常数，而非加性噪声。在风格输入和噪声输入中已经有足够的随机性，可以在图像中产生足够丰富的变化。

StyleGAN输出

图10-9展示了StyleGAN的实际应用。

这里，两张图，source A 和 source B，是从两个不同的 $\mathbf{w}$ 生成。为了生成融合图像，source A的 $\mathbf{w}$ 传输给合成网络，在某个点上，切换成 source B的 $\mathbf{w}$ 。如果切换发生在早期阶段 (4x4 或者 8x8分辨率)，source B中粗粒度的风格如姿势，人脸形状以及眼镜会带到 source A中。然而，如果切换发生较晚，那么只有细粒度细节会引入，例如颜色和人脸的细微结构，而source A的粗粒度特征将会保留。

StyleGAN2

重要的GAN论文链中最后一个贡献来自于 StyleGAN2。StyleGAN2基于StyleGAN 架构，并做了一些关键改进来提升生成图像质量。特别的，StyleGAN2不会有特别严重的 artifacts — 由StyleGAN种AdaIN层造成的水滴状图像区域，如图10-10所示。

StyleGAN2的生成器和鉴别器都跟 StyleGAN不同。在下一小节中，我们将探索两者在架构上的关键不同。

训练自己的StyleGAN2
使用 TensorFlow来训练StyleGAN2的官方代码在Github有公开。需要留意的是，要训练一个跟原始论文中一样效果的StyleGAN2需要大量算力。

权重调制及解调

如图10-11所示，通过移除生成器中的AdaIN层，并将之替代为权重调制和解调，artifact 的问题得以解决。 $\mathbf{w}$ 代表卷积层权重，它们通过styleGAN2运行时的调制和解调步骤进行直接更新。对比来讲，StyleGAN 的 AdaIN层是在图像张量流经网络时进行操作。

StyleGAN 的 AdaIN层就是简单的实例归一化紧接风格调制 (尺度和偏置)。StyleGAN2的主要思想是: 在卷积层权重运行时直接应用风格调制和归一化 (解调)，而非应用于卷积层的输出，如图10-11所示。作者展示了为什么这个操作可以去除artifact问题，同时保持对图像风格的控制。

在StyleGAN2中，每个全连层A输出一个单一风格向量 $s_i$ ，其中 $i$ 表示对应卷积层的输入通道数。这种风格向量进一步按如下方式应用于卷积层的权重:
$w_{i,j,k} = s_i \cdot w_{i,j,k}$
这里， $j$ 表示层的输出通道数， $k$ 表示空间维度。这是过程的调制步骤。

然后，我们对权重进行归一化，使得它们有单位标准差，以确保训练过程的稳定性。这是解调步骤:
$w_{i,j,k} = \frac{w_{i,j,k} }{\sqrt{\sum\limits_{i,k}w_{i,j,k}^2 + \epsilon }}$
其中 $\epsilon$ 是一个小的常量值，以避免分母为0。

在论文中，作者展示了为什么这种简单的改变足够去除水滴状artifacts，同时保持通过风格向量对生成图像的控制，并确保输出保持在高质量。

路径长度正则化 (Path Length Regularization)

StyleGAN架构上另一个改变在于损失函数引入了一个额外的惩罚项 — 我们称之为路径长度正则化。

我们希望隐空间尽可能的平滑且均匀，使得隐空间的任何固定步数在图像中产生的改变幅度也是固定的。

为了鼓励这一性质，StyleGAN2 目标是最小化下列项，类似之前的带梯度惩罚的 Wasserstein 损失:
$\mathbb{E}_{w,y} (||\mathbf{J}_w^T\mathbf{y}||_2 - a)^2$
这里， $w$ 是一组映射网络产生的一组风格向量， $y$ 是一组从 $\mathcal{N}(0,\mathbf{I})$ 中抽取的噪声图像， $\mathbf{J}_w=\frac{\partial g}{\partial w}$ 是生成网络相对于风格向量的雅可比。

$||\mathbf{J}_w^Ty||_2$ 这一项度量图像 $y$ 在通过雅可比给定梯度转换后的幅度。我们希望其尽可能接近一个常数 $a$ ，该常数随着训练过程动态计算为 $||\mathbf{J}_w^Ty||_2$ 的指数滑动平均(exponential moving average)。

作者发现，这个额外项可以使得隐空间的探索更可靠、更一致。进一步的，效率起见，损失函数正则项每16个minibatches仅应用一次。这个技术，称为 lazy regularization，不会造成性能的可见下降。

非渐进式成长(No Progressive Growing)

另一个重大升级在于StyleGAN2的训练。作者没有采用之前的渐进式训练机制，而是在生成器中利用了跳跃连接，在鉴别器中使用了残差连接来把整个网络作为一个整体训练。它不再把不同分辨率独立训练并融合作为训练过程的一部分。

图10-12展示了StyleGAN2 生成器和鉴别器 blocks。

我们希望保留的关键性质在于: StyleGAN2 以学习低分辨率特征开始，并随着训练过程逐渐精调输出。作者证明了，使用这一架构，这一性质真的得到保留。每个网络都从低分辨率层在训练早期阶段的卷积权重精调中受益，被用来将输出传递给高分辨率层的跳跃和残差连接几乎不受影响。随着训练的进行，高分辨率层开始主要，因为生成器发现了更复杂的方式来提升图像真实度以骗过鉴别器。这一过程如图10-13所示。

StyleGAN2之输出

StyleGAN2 的一些样例输出如图10-14所示。迄今为止，根据benchmarking 网站 Papers with Code，StyleGAN2架构 (以及其不同规模的变种例如 StyleGAN-XL) 在一些数据库如 Flickr-Faces-HQ (FFHQ) 和 CIFAR-10 上都是图像生成的SOTA。

其他重要的GANs

在这一小节里，我们将探索两个另外的对GANs发展贡献良多的架构 — SAGAN 和 BigGAN。

自注意力GAN(Self-Attention GAN, SAGAN)

SAGAN是GANs技术的一项关键进展，因为它展示了在序列模型中(如Transformer)占据统治地位的注意力机制可以如何集成到用于图像生成的基于GAN的模型中。图10-15展示了原始paper中的自注意力机制。

未融合注意力的GAN模型问题在于: 卷积特征图只能够进行局部信息处理。在图像中，将图像一侧的像素信息连接到另一侧需要多个卷积层来减少网络尺寸，同时增加通道数目。在整个过程中，为了捕获更高级别的特征，精确的位置信息会减少，这使得模型学习远程连接像素之间的远程依赖关系的计算效率低下。SAGAN通过在GAN中融合注意力机制解决了这一问题。这一改进的效果如下图10-16所示。

红点代表小鸟身体一部分的一个像素，因此，注意力自然落到周围的身体部分。绿点是背景的一部分，这里注意力事实上落在小鸟头部的另一边，在其它的背景像素上。蓝点是小鸟尾部的一部分，因此注意力集中在其他的尾部像素，其中一些离蓝点比较远。如果没有注意力机制，我们很难维持像素间大范围的依赖性，尤其是对于图像中长的，细的结构 (例如本例中的尾部)。

训练自己的SAGAN
使用 TensorFlow来训练SAGAN的官方代码在Github有公开。需要留意的是，要训练一个跟原始论文中一样效果的SAGAN需要大量算力。

BigGAN

由 DeepMind 开发的 BigGAN，扩展了原始SAGAN论文的思想。图10-17展示了BigGAN生成的一些图像，该模型在ImageNet数据集 128x128分辨率上训练得到。

除了在SAGAN基础上的一些增量改进，论文中也列举了一些创新点将模型代入了更高的复杂度。其中一个创新名为 “截断技巧 (truncation trick)”。这就是用于采样的潜在分布与训练时用的$z \sim \mathcal{N}(0,\mathbf{I}) $分布不同的地方。特别的，采样过程中使用的分布是一个截断的正态分布 (truncated normal distribution，对大于某个幅度阈值的 z 值进行重采样)。截断阈值越小，生成样本的置信度越大，代价是发散度减小。概念如图10-18所示。

另外，如名字所提示，BigGAN是SAGAN的一个改进，部分意义上就是更大。BigGAN使用了batchsize = 2048 — 是SAGAN中使用的256batchsize的8倍大 — 同时，所有层的通道数都增加50%。然而，BigGAN另外表明， SAGAN可以通过引入共享嵌入层，通过正交正则化，以及在生成器的每个层中融入隐向量z来获得结构上的优化。

对于BigGAN中创新性的描述，我推荐阅读原始的论文及伴随展示材料。

使用BigGAN
使用预训练好的BigGAN来生成图像的教程可在TensorFlow官网上获取。

VQ-GAN

另一个重要的GAN类型是2020年出现的向量量化GAN(Vector Quantized GAN，VA-GAN)。模型架构基于2017年论文“Neural Discrete Representation Learning” — 也即，VAE学到的表示可以是离散而非连续的。这种新的模型，VQ-VAE，可以生成高质量的图像，同时避免过去连续隐空间VAEs的某些常见问题，例如 posterior collapse (学到的隐空间由于过分强大的解码器而无意义。)

小贴士
OpenAI在2021年发布的文生图模型DALL.E的首个版本（见第13章），使用了一个离散VAE隐空间，类似VQ-VAE。

对于离散隐空间，我们指的是一组学习到的向量 (码簿)，每个都与对应的index相关。VA-VAE中编码器的工作是把输入图像坍缩为一个小一些的，可与码簿进行比较的向量网格。每个grid square vector的最近码簿向量 (欧式距离)被拿给解码器解码，如图10-19所示。码簿是一组长度为 d (嵌入尺寸) 的学到的向量，它与编码器输出和解码器输入的通道数匹配。例如， $e_1$ 是一个可被解释为背景的向量。

码簿可以被看作一组在编码器和解码器之间共享以描述给定图像内容的离散概念。 VQ-VAE 需要找到一种方式，使得这组离散概念尽可能提供有用信息以使得编码器可以精准用一个特定的对解码器有意义的编码向量标定每个grid square。VQ-VAE的损失函数是重建损失和加上两项 (alignment and commitment 损失) 以确保编码器的输出向量与码簿向量尽可能接近。这些项替代了经典VAE中编码分布和标准高斯先验的KL散度。

然而，这个架构导致了一个问题 — 我们该如何采样一个新的 code grids 并传给解码器以生成新的图像？显然，使用一个均匀先验(对于每个grid square，等概率挑选一个code)可不行。例如，在MNIST数据集中，左上grid square大概率被编码为背景，而朝向图像中心的网格方块则不太可能被编码为背景。为了解决这一问题，作者使用了另一个模型 — 一个自回归的PixelCNN，以在给定前序编码向量时预测网格中下一个编码向量。换句话说，先验是被模型学得的，而非如原生VAE一样是静态的。

训练你自己的VQ-VAE
在Keras官网上，Sayak Paul提供了一个如何训练VQ-VAE的出色教程。

VQ-GAN 论文给出了VQ-VAE的关键改变，如图10-20所示。

首先，顾名思义，作者加入了一个 GAN 判别器，试图区分 VAE 解码器的输出和真实图像，并在损失函数中附带对抗项。众所周知，GAN 可以产生比 VAE 更清晰的图像，因此这一添加提高了整体图像质量。请注意，尽管有这个名称，VAE 仍然存在于 VQ-GAN 模型中——GAN 判别器是一个附加组件，而非替代了VAE。 Larsen 等人在 2015 年的论文中首先提出了将 VAE 与 GAN 判别器（VAE-GAN）相结合的想法。

其次，GAN 判别器会预测一小部分图像的真假，而不是一次性预测整个图像。这个想法 (PatchGAN) 被应用在 Isola 等人 2016 年成功推出的 pix2pix 图像到图像模型中，并且也成功应用于 CycleGAN (另一个图像到图像风格迁移模型)。 PatchGAN 判别器输出一个预测向量（每个补丁的预测），而不是整个图像的单个预测。使用 PatchGAN 判别器的好处是，损失函数可以根据图像的风格而不是内容来衡量判别器区分图像的能力。由于鉴别器预测的每个单独元素都基于图像的小方块，因此它必须使用补丁的样式而不是其内容来做出决定。这很有用，因为我们知道 VAE 生成的图像在风格上比真实图像更模糊，因此 PatchGAN 判别器可以鼓励 VAE 解码器生成更清晰的图像。

第三，VQ-GAN 没有使用单个 MSE 重建损失来比较输入图像像素与 VAE 解码器的输出像素，而是使用感知损失项来计算编码器中间层的特征图与相应解码器层特征图之间的差异。这个想法来自 Hou 等人 2016 年的论文，其中作者表明，损失函数的这种变化可以产生更真实的图像。

最后，使用 Transformer 代替 PixelCNN 作为模型的自回归部分，经过训练来生成代码序列。在 VQ-GAN 完全训练之后，Transformer 在单独的阶段进行训练。作者没有以完全自回归的方式使用所有先前的标记，而是选择仅使用落在要预测的标记周围的滑动窗口内的标记。这确保了模型可以扩展到更大的图像，这需要更大的潜在网格大小，因此 Transformer 会生成更多的标记。

ViT VQ-GAN

Yu 等人在2021 年题为“Vector-Quantized Image Modeling with Improved VQGAN”的论文中对 VQ-GAN 进行了扩展。作者展示了如何用 Transformer 替换 VQ-GAN 的卷积编码器和解码器，如图 10-21 所示。

对于编码器，作者使用了 Vision Transformer (ViT)。 ViT 是一种神经网络架构，它将最初为自然语言处理而设计的 Transformer 模型应用于图像数据。 ViT 不使用卷积层从图像中提取特征，而是将图像划分为一系列补丁，这些补丁被标记化，然后作为输入馈送到编码器 Transformer。

具体来说，在 ViT VQ-GAN 中，首先展平非重叠输入块（每个大小为 8 × 8），然后投影到低维嵌入空间，在其中添加位置嵌入。然后将该序列馈送到标准编码器 Transformer，并根据学习的码本对所得嵌入进行量化。然后，这些整数代码由解码器 Transformer 模型进行处理，整体输出是一系列可以拼接在一起以形成原始图像的补丁。整个编码器-解码器模型作为自动编码器进行端到端训练。

对于编码器，作者使用了 Vision Transformer (ViT)。16 ViT 是一种神经网络架构，它将最初为自然语言处理而设计的 Transformer 模型应用于图像数据。 ViT 不使用卷积层从图像中提取特征，而是将图像划分为一系列补丁，这些补丁被标记化，然后作为输入馈送到编码器 Transformer。

与原始 VQ-GAN 模型一样，训练的第二阶段涉及使用自回归解码器 Transformer 生成代码序列。因此，除了 GAN 判别器和学习码本之外，ViT VQ-GAN 中总共有 3 个 Transformer。图 10-22 显示了 ViT VQ-GAN 从论文中生成的图像示例。

本章小结

在本章中，我们回顾了 2017 年以来一些最重要和最有影响力的 GAN 论文。特别是，我们探索了 ProGAN、StyleGAN、StyleGAN2、SAGAN、BigGAN、VQ-GAN 和 ViT VQ-GAN。

我们首先探索了 2017 年 ProGAN 论文中首次提出的渐进式训练的概念。 2018 年的 StyleGAN 论文中引入了几个关键变化，可以更好地控制图像输出，例如用于创建特定样式向量的映射网络和允许以不同分辨率注入样式的合成网络。最后，StyleGAN2 用权重调制和解调步骤取代了 StyleGAN 的自适应实例归一化，同时还进行了路径正则化等其他增强功能。该论文还展示了如何在无需逐步训练网络的情况下保留逐步分辨率细化的理想特性。

随着 2018 年 SAGAN 的推出，我们还看到了如何将注意力的概念构建到 GAN 中。这使得网络能够捕获远程依赖关系，例如图像相对两侧的相似背景颜色，而无需依赖深度学习卷积映射将信息传播到图像的空间维度上。 BigGAN 是这个想法的延伸，它做出了一些关键的改变并训练了一个更大的网络以进一步提高图像质量。

在 VQ-GAN 论文中，作者展示了如何组合几种不同类型的生成模型以产生巨大效果。在最初的 VQ-VAE 论文（引入了具有离散潜在空间的 VAE 概念）的基础上，VQ-GAN 还包含一个判别器，鼓励 VAE 通过额外的对抗性损失项生成不太模糊的图像。自回归 Transformer 用于构造新的代码标记序列，该序列可以由 VAE 解码器解码以生成新的图像。 ViT VQ-GAN 论文进一步扩展了这一想法，用 Transformer 替换 VQ-GAN 的卷积编码器和解码器。

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
数字逻辑不可能涌现出智能 dog250 人工智能
先看一系列竖式乘法的步骤：相乘的两个数数位越大，步骤越多。如果不纠结数制，二进制运算也是这回事，把单个步骤用一个晶体管表达(其实一个步骤不止一个晶体管)，数位越大，所需的晶体管越多。先说结论，所有基于n进制的逻辑运算都不可扩展。硅基时序电路可如此巧妙完成精确计算，开启了数字化时代，人们试图将AI构建在这二进制世界。但若二进制运算不可扩展，基于数字逻辑的人工智能就不可能。前面提到过，二进制运算本质上
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
让数据说话：人工智能与六西格玛的完美结合张驰课堂人工智能六西格玛
当人工智能与六西格玛结合，企业可以充分利用人工智能技术的数据处理、预测分析和智能决策支持能力，实现数据驱动的决策、质量控制和流程优化，从而提高企业的效率和竞争力。下面张驰咨询给大家具体的介绍：1、数据驱动决策六西格玛侧重于数据分析和决策制定，而人工智能可以提供更强大的数据处理和分析能力。通过人工智能技术，可以自动收集和整理大量的数据，并进行有效的数据挖掘和模式识别。这些数据分析结果可以为六西格玛项
【AIGC调研系列】kimi与其他AI助手相比的优势和劣势是什么来自太平洋的暖湿气流 AIGC调研相关 AIGC 人工智能
Kimi与其他AI助手相比，具有以下优势和劣势：优势：服务稳定性：Kimi的服务在境内，使用稳定[2]。多客户端支持：支持网页、APP、小程序等多个客户端，提高了用户的使用便捷性[2][4]。中文处理能力：Kimi在中文处理方面表现出色，这可能是因为其针对中文环境进行了优化[2]。实时联网搜索：能够实时联网搜索，与工作流结合紧密，提高了工作效率[2]。长文本处理能力：Kimi在长文本处理方面的能力
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
AI原生安全亚信安全首个“人工智能安全实用手册”开放阅览亚信安全官方账号安全网络 web安全人工智能大数据
不断涌现的AI技术新应用和大模型技术革新，让我们感叹从没有像今天这样，离人工智能的未来如此之近。追逐AI原生？企业组织基于并利用大模型技术探索和开发AI应用的无限可能，迎接生产与业务模式的全面的革新。我们更应关心AI安全原生。实施人工智能是一项复杂又长远的任务，任何希望利用大模型的组织在设计之初，都必须将安全打入地基，安全一定是AI技术发展的核心要素。针对人工智能和大模型面临的威胁与攻击模式，亚信
开发chrome扩展（禁止指定域名使用插件）徐同保 chrome 前端
mainfest.json:{"manifest_version":3,"name":"ChatGPT学习","version":"0.0.2","description":"ChatGPT,GPT-4,Claude3,Midjourney,StableDiffusion,AI,人工智能,AI","icons":{"16":"./images/logo.png","48":"./images/lo
ai智能语音机器人的出现未来电销行业会如何发展？ VO_794632978 WX-794632978 语音机器人人工智能机器人交互语音识别大数据
人工智能和移动互联网技术的发展，对于很多行业都产生了颠覆性的影响。而对于电销这一重复度较高的行业来说，也是产生了巨大的推动作用。对于传统电销人来说，电销机器人可以帮助你提高销售效率，提高影响客户的能力和转化率，将你过去繁琐简单无效的需要个人做的工作，都交给机器，让你的时间和精力，放在重要的客户和有创造性的事情上。我们一起来看看都有哪些发展。自动化程度提高：AI机器人能够不间断地工作，自动拨打电话、
MATLAB 2023a：强化学习算法的实战演练与性能评估 zmjia111 机器学习 matlab matlab 算法开发语言深度学习机器学习 yolo
在深度学习领域，MATLAB2023版深度学习工具箱以其完整的工具链和高效的运行环境，为研究人员和开发者提供了前所未有的便利。这一工具箱不仅集成了建模、训练和部署的全部功能，更以其简洁易用的语法和强大的算法库，为深度学习任务的快速实现铺平了道路。相较于Python等编程语言，MATLAB的语法更为直观，上手更为迅速。无需繁琐的环境配置和库安装，用户只需打开MATLAB界面，即可轻松开始深度学习之旅
动手学习深度学习——2.5 自动微分 X_Imagine 动手学习深度学习深度学习人工智能自动微分
2.5自动微分正如【2.4微积分】所说，微分是深度学习中几乎所有最优化算法的关键步骤。虽然求这些导数的计算过程很简单，只需要一些基本的微积分知识。但对于复杂的模型，手工计算参数的更新可能很痛苦(而且经常容易出错)。深度学习框架通过自动计算导数加快了这一工作，即自动微分（AutomaticDifferentiation）。在实践中，基于我们设计的模型，系统构建了一个计算图，跟踪哪些数据结合哪些操
生成式AI竞赛：开源还是闭源，谁将主宰未来？新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/对于一些行业观察家来说，这场战斗似乎还没开始就已结束。当ChatGPT成为有史以来增长最
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
从政府工作报告探计算机行业发展想你依然心痛个人总结与成长规划行业发展前景
文章目录每日一句正能量前言以“数”谋新、加“数”向实人工智能方面人工智能成核心驱动引擎软件方面通信方面后记每日一句正能量该来的始终会来，千万别太着急，如果你失去了耐心，就会失去更多。该走过的路总是要走过的，从来不要认为你走错了路，哪怕最后转了一个大弯。这条路上你看到的风景总是特属于你自己的，没有人能夺走它。前言2024年的两会是中国政治日历上一次重要的会议，吸引了全球的目光。在这次两会中，计算机行
ego - 人工智能原生 3D 模拟引擎——基于AI的3D引擎，可以做游戏、空间计算、元宇宙等项目花生糖@ AIGC学习资源人工智能游戏空间计算
1.产品概述：Ego是一款AI本地化的3D模拟引擎，旨在让非技术创作者通过自然语言生成逼真的角色、3D世界和交互式脚本。该平台提供了创建和分享游戏、虚拟世界和交互体验的功能。2.定位：Ego定位于解决开放世界游戏和模拟的三大难题：难以编写游戏脚本、非玩家角色无法展现人类行为以及创建新的3D资产和世界的难度。通过AI技术，Ego致力于让用户可以用自然语言创建复杂的游戏和交互体验。3.创始人背景：创始
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不