Garry1248

Bishop新著 - 深度学习:基础与概念 - 第一章 - 深度学习革命

《Deep Learning: Foundations and Concepts》系机器学习领域大神Christopher Bishop的最新力作，于2023年11月由Springer出版社出版。Bishop是微软剑桥研究实验室主任、微软技术院士(Microsoft Technical Fellow), 爱丁堡大学计算机教授, 英国皇家工程院院士, 同时也是经典巨著《Pattern Recogition and Machine Learning》(简称PRML，被许多机器学习研究者奉为AI圣经) 的作者。
.
前序章节回顾:

前言

深度学习革命

机器学习目前是技术领域中最重要、发展最快的领域之一。机器学习的应用已经无处不在,从数据中学习的解决方案正在逐步取代传统的手工设计的算法。这不仅改进了现有技术的性能,也为前所未有的、无法通过手动设计新算法实现的大量新能力打开了大门。

机器学习的一个特定分支,称为深度学习,已经证明自己是一个异常强大而通用的从数据中学习的框架。深度学习基于称为神经网络的计算模型,这些模型最初是受人脑的学习和信息处理机制的启发。人工智能领域,或AI,寻求在机器中重现大脑的强大能力,今天机器学习和AI这两个术语通常可以互换使用。当前使用的许多AI系统代表了机器学习的应用,这些应用被设计以解决非常具体和有针对性的问题,虽然它们非常有用,但与人脑的巨大能力相比,仍然差得很远。这导致了“通用人工智能(artificial general intelligence, AGI)”这个术语的引入,它描述的是构建具有更大的灵活性机器的抱负。在几十年的稳步发展之后,机器学习现在进入了快速发展的阶段。最近,称为大语言模型(large language models,LLM)的大规模深度学习系统开始展示出了令人称奇的能力,这些能力已经被描述为通用人工智能的指征。

深度学习的影响

我们从四个例子开始讨论机器学习,这些例子来自不同的领域,用以说明这项技术的巨大适用性,并引入一些基本概念和术语。值得注意的是,这些例子以及许多其他例子都使用了同样的深度学习基本框架的不同变体来解决问题。这与传统方法形成了鲜明对比,后者使用了广泛不同且专门的技术来解决不同的应用。需要强调的是,我们选择的示例只代表了深度神经网络适用性范围的一小部分,几乎每个计算起作用的领域都适合深度学习的变革性影响。

医学诊断

首先考虑将机器学习应用于皮肤癌诊断的问题。黑色素瘤是最危险的一种皮肤癌,但是如果及早发现,是可以治愈的。图1.1显示了皮损的示例图像, 第一行为恶性黑色素瘤,最后一行为良性痣。区分这两类图像显然非常具有挑战性,几乎不可能用手写算法成功分类这样的图像且有任何合理的准确度。

这个问题已经成功地使用深度学习解决(Esteva等,2017)。解决方案是使用称为训练集的大量病损图像集创建的,其中每个图像都被标记为恶性或良性,这些标签是从可以提供病损真实类别的活检测试获得的。训练集用于确定大约2500万个可调参数的值,这些参数称为权重,存在于深层神经网络中。从数据确定参数值的过程称为学习(Learning)或训练(Training)。目标是训练后的网络能够仅从图像本身预测新损伤的正确标签,而不需要进行时间消耗大的活检步骤。这是一个有监督学习(supervised learning)问题的示例,因为对于每个训练示例,网络都会被告知正确的标签。这也是一个分类(classification)问题的示例,因为每个输入必须被赋予一组离散的类标签(在本例中是良性或恶性)。输出由一个或多个连续变量组成的应用称为回归(regression)问题。回归问题的一个例子是预测化学制造过程中的产量,其中输入包括温度、压强和反应物的浓度。

这个应用的一个有趣的方面是,可用的标记训练图像的数量,大约12.9万,被认为相对较小,因此深层神经网络首先在128万张日常物体(如狗、建筑和蘑菇)的图像上进行了训练,然后在皮损图像数据集上进行了微调(fine-tuned)。这是迁移学习(transfer learning)的一个例子,其中网络从大量日常物体数据集中学习常规自然图像的属性,然后专门适应皮损分类的特定问题。通过使用深度学习,皮肤病变图像的分类达到了超过专业皮肤科医生的准确度的水平(Brinker等,2019)。

蛋白质结构

蛋白质有时被称为生物体的构建模组(building blocks)。它们是由称为氨基酸的单元组成的一条或多条长链组成的生物分子,氨基酸有22种不同类型,蛋白质由氨基酸序列决定。一旦蛋白质在活细胞内合成,它就会折叠成一个复杂的三维结构,其行为和交互作用在很大程度上由其形状决定。给定氨基酸序列计算三维结构,这在生物学领域是一个基础性的半个世纪的未解之谜,直到深度学习出现之前进展相对较少。

三维结构可以使用X射线晶体学、低温电子显微镜或核磁共振谱等技术来实验测量。但是,对某些蛋白质来说,这可能非常耗时,例如,由于难以获得纯净的样本(sample),或者由于结构依赖于上下文(context)。相比之下,蛋白质的氨基酸序列可以以更低的成本和更高的通量(throughput)实验测定。因此,如果能够直接从氨基酸序列预测蛋白质的三维结构,以更好地理解生物过程或用于实际应用,如药物发现,将具有相当大的意义。深度学习模型可以训练输入氨基酸序列并生成三维结构作为输出,其中训练数据由一组蛋白质组成,这些蛋白质已经知道氨基酸序列和三维结构。蛋白质结构预测因此是有监督学习的另一个示例。一旦系统经过训练,它可以将新的氨基酸序列作为输入,并预测相关的三维结构(Jumper等,2021)。图1.2比较了蛋白质的预测三维结构和通过X射线晶体学获得的真实结构。

图像合成

在我们迄今讨论的两个应用中,神经网络学习将输入(皮肤图像或氨基酸序列)转换为输出(病变分类或蛋白质三维结构)。我们现在考虑一个示例,其中训练数据只由一组样本图像组成,训练网络的目标是创建同类的新图像。这是一个无监督学习(unsupervised learning)的示例,因为图像没有标签,与病变分类和蛋白质结构的示例相反。图1.3显示了在录影棚中拍摄的一组人脸图像上训练的深度神经网络生成的合成图像示例。这样的合成图像质量异常高,很难将它们与真人的照片区分开来。

这是一个生成模型(*generative model *)的示例,因为它可以生成与用于训练模型的样本不同的新输出示例,但却具备相同的统计属性。这种方法的一个变体允许根据称为提示(prompt)的文本字符串输入生成图像,以便图像内容反映文本输入的语义。生成式AI(generative AI)这个词用来描述生成图像、视频、音频、文本、候选药物分子或其他模态输出的深度学习模型。

大语言模型 (LLM)

最近几年机器学习中最重要的进展之一是开发了强大的自然语言和其他序列数据(如源代码)处理模型。大语言模型(LLM)使用深度学习构建内在表征,捕捉语言的语义特性。自回归语言模型(autoregressive language models)是一种重要的大语言模型,可以生成语言输出,因此它们是一种生成型AI。这种模型以单词序列为输入,输出代表序列中下一个词的单词作为输出。加入新词的增广序列(augumented sequence)可以再次馈送到模型中以生成后续词,这个过程可以重复地生成长序列的词。这种模型还可以输出一个特殊的“停止”词来作为文本生成终止的信号,从而允许它们输出有限长度的文本,然后停止。用户可以将自己的一系列词附加到序列之前,然后将完整的序列反馈到模型中以触发进一步的词生成。通过这种方式,人类可以与神经网络进行对话。

**通过从文本中提取成对的训练数据: 随机选择的单词序列作为输入，已知的下一个词作为目标输出,可以在大量文本数据上训练这种模型。这是一种自监督学习(self-supervised learning)的例子,其中学习了从输入到输出的函数, 带标签的输出不需要单独的人工标记,而是从输入训练数据中自动获得的。**由于大量文本可以从多个来源获得,这种方法允许扩展到非常大规模的训练集和对应的大型神经网络。

大语言模型可以展现令人惊讶的能力,这些能力已被描述为新兴的通用人工智能(AGI)的最初表征(Bubeck et al., 2023),我们将在书中详细讨论这种模型。在下一页，我们将展示一个基于GPT-4模型(OpenAI, 2023)进行语言生成的示例, 示例对应的输入提示为: “Write a proof of the fact that there are infinitely many primes; do it in the style of a Shakespeare play through a dialogue between two parties arguing over the proof.”。

教程示例

对于机器学习领域的新手来说,许多基本概念和大部分术语都可以在一个简单的例子中介绍,其涉及使用多项式拟合一个小的合成数据集。这是一种有监督学习问题,我们希望在给定输入变量值的情况下进行目标变量的预测。

合成数据

我们用 $x$ 表示输入变量, $t$ 表示目标变量,并且假设两个变量都取实数轴上的连续值。假设我们有一个训练集,包含 $x$ 的 $N$ 个观测(observation),表示为 $x_1, ..., x_N$ ,以及相应的 $t$ 值的观测 $t_1, ..., t_N$ 。我们的目标是对某些新值 $\hat{x}$ 预测目标变量 $\hat{t}$ 的值。基于以前未见过的输入进行准确预测的能力是机器学习的一个关键目标,称为泛化(generalization)。

我们可以通过从正弦函数中进行抽样来说明这一点。图1.4显示了一个由 $N = 10$ 个数据点组成的训练集的绘制,其中输入值 $x_n$ (对 $n = 1, ..., N$ )被均匀分布在 $[0, 1]$ 范围内选择。对应的目标数据值是首先计算每个 $x$ 的函数 $\sin(2\pi x)$ 的值获得的,然后将小的随机噪声(由高斯分布控制)添加到每个这样的点中以获得相应的目标值 $t_n$ 。通过这种方式生成数据,我们捕获了许多真实世界数据集的一个重要特性：即它们具有我们希望学习的潜在规律性,但单个观测结果被随机噪声扰乱。这种噪声可能源于本质上随机（stachastic or random）过程，例如放射性衰变，但更常见的是由于存在本身未被观察到的变异源。

在这个教程示例中,我们知道生成数据的真实过程,即正弦函数。在机器学习的实际应用中,我们的目标是根据有限的训练集发现数据中的潜在趋势。然而,知道生成数据的过程使我们能够说明机器学习中的重要概念。

线性模型

我们的目标是利用这个训练集来预测某些新值 $\hat{x}$ 的目标变量值 $\hat{t}$ 。正如我们稍后将看到的,这涉及隐式地试图发现潜在的函数 $\sin(2\pi x)$ 。由于我们必须从有限的数据集推广到整个函数,所以这本质上是一个困难的问题。此外,观察到的数据被噪声损坏,因此对于给定的 $\hat{x}$ , $\hat{t}$ 的适当值存在不确定性。概率论(Probability theory)为以精确和定量的方式表达这种不确定性提供了一个框架,而决策论(decision theory)则允许我们利用这种概率表示根据适当标准来做出最佳预测。从数据中学习概率是机器学习的核心,这本书将对此进行深入探讨。

我们将相当非正式地考虑一种简单的方法,该方法基于曲线拟合。特别是,我们将使用多项式函数的形式来拟合数据:

$y(x,\mathbf{w})=w_0+w_1x+w_2x^2+...+w_Mx^M=\sum\limits_{j=0}^M w_j x^j \tag{1.1}$

其中 $M$ 是多项式的阶, $x^j$ 表示 $x$ 的 $j$ 次幂。多项式系数 $w_0,...,w_M$ 统称为向量 $\mathbf{w}$ 。请注意,尽管多项式函数 $y(x,\mathbf{w})$ 是 $x$ 的非线性函数,但它是系数 $\mathbf{w}$ 的线性函数。这种多项式这样的函数称为线性模型,它们具有重要的特性和显著的局限性。

误差函数

系数值将通过将多项式拟合到训练数据来确定。这可以通过最小化误差函数来完成,该误差函数测量任何给定 $\mathbf{w}$ 值的函数 $y(x,\mathbf{w})$ 与训练数据集之间的不匹配程度。一个简单的选择是目标值 $t_n$ 和对应数据点 $x_n$ 处的预测值 $y(x_n,\mathbf{w})$ 之间差值的平方和,给定为

$E(\mathbf{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2 \tag{1.2}$

这里的 $\frac{1}{2}$ 因子是为了后面方便。我们后面会从概率论中导出这个误差函数。这里我们只注意到它是一个非负数量,当且仅当函数 $y(x,\mathbf{w})$ 恰好穿过每个训练数据点时为零。图1.5说明了平方和误差函数的几何解释。

我们可以通过选择使得 $E(\mathbf{w})$ 尽可能小的 $\mathbf{w}$ 值来解决曲线拟合问题。由于误差函数是系数 $\mathbf{w}$ 的二次函数，因此其关于系数的导数在 $\mathbf{w}$ 的元素中将是线性的，因此误差函数的最小化具有唯一解，可通过闭式解求得，记为 $\mathbf{w}^{\star}$ 。结果多项式由函数 $\mathbf{w}^{\star})$ 给出。

模型复杂度

仍然存在选择多项式阶数 $M$ 的问题,我们将看到这将成为一个重要的概念,称为模型比较(Model comparison)或模型选择(Model selection)。在图1.6中,我们展示了阶数分别为 $M = 0, 1, 3$ 和9的多项式拟合到图1.4中的数据集的四个示例。

请注意,常量( $M = 0$ )和一阶( $M = 1$ )多项式与数据的拟合不佳,因此是函数 $\sin(2\pi x)$ 的糟糕表示。三阶( $M = 3$ )多项式似乎给出了sin(2πx)的最佳拟合。当我们使用非常高阶的多项式( $M = 9$ )时,我们获得了训练数据的绝佳拟合。事实上,9阶多项式恰好经过每个训练数据点且使得 $E(\mathbf{w}^{\star}) = 0$ 。然而，拟合的曲线剧烈振荡，对函数 $\sin(2\pi x)$ 的表示非常差。后一种行为称为过拟合(over-fitting)。

我们的目标是通过对新数据进行准确预测来实现良好的泛化。我们可以通过考虑一个单独的数据集,称为测试集(test set),来获得对泛化性能与 $M$ 依赖性的定量洞察。测试集由使用与生成训练集中数据点相同的过程生成的100个数据点组成。对于每个 $M$ 值,我们可以评估训练数据上由(1.2)给出的残差值 $E(\mathbf{w}^{\star})$ ,我们也可以针对测试数据集评估 $E(\mathbf{w}^{\star})$ 。相对于直接评估误差函数 $E(\mathbf{w})$ ,有时使用如下定义的均方根误差(root-mean-square，RMS)更方便：

$E_{RMS}=\sqrt{\frac{1}{N}\sum_{n=1}^{N}\{y(x_n,\mathbf{w})-t_n\}^2} \tag{1.3}$

其中除以 $N$ 允许我们在平等的基础上比较不同大小的数据集,而平方根确保 $E_{RMS}$ 与目标变量 $t$ 测量在相同的量度尺度(和相同的单位)上。训练数据集和测试数据集对于 $M$ 不同值的RMS误差如图1.7所示。测试集误差是我们在预测新数据的 $t$ 值方面表现的一个测度。从图1.7中注意,小的 $M$ 值给出了相对较大的测试集误差,这可以归因于相应的多项式相当缺乏灵活性,无法捕捉函数 $\sin(2\pi x)$ 中的振荡。 $M$ 值在范围3 ≤ $M$ ≤ 8给出较小的测试集误差,这些也给出了生成函数 $\sin(2\pi x)$ 的合理表示,如图1.6中的 $M = 3$ 所示。

对于 $M = 9$ ,训练集误差变为零,正如我们所料,因为这个多项式包含10个自由度,对应于10个系数 $w_0$ ,…, $w_9$ ,因此可以确切地调整到训练集中的10个数据点。然而,测试集误差变得非常大,如我们在图1.6中所看到的,相应的函数 $y(x,\mathbf{w}^{\star})$ 表现出了明显的震荡。

这似乎有悖论,因为给定阶的多项式包含所有低阶多项式作为其特例。因此， $M = 9$ 的多项式能够产生至少与 $M = 3$ 多项式一样好的结果。此外,我们可能会认为,新数据的最佳预测器将是生成数据的函数 $\sin(2\pi x)$ (我们将看到这确实是正确的)。我们知道sin(2πx)函数的幂级数展开包含所有阶次的项,因此我们可能期望随着M的增加,结果应单调改善。

我们可以通过检查各种阶数多项式的系数 $\mathbf{w}^{\star}$ 的值得出一些洞见4,如表1.1所示。我们看到,随着 $M$ 的增加,系数的大小通常会变大。特别是对于 $M = 9$ 的多项式,系数已经精细拟合到数据。它们有很大的正负值,以便相应的多项式函数与每个数据点完全匹配,但是在数据点之间(特别是在范围的末端附近)函数表现出在图1.6中观察到的大震荡。直观地说,更灵活的多项式所发生的事情是 $M$ 较大的值越来越适应目标值上的随机噪声。

通过检查学习得到的模型随数据集大小变化的行为,可以进一步深入了解这种现象,如图1.8所示。我们看到,对于给定的模型复杂度,过拟合问题随着数据集大小的增加而变得不那么严重。

另一种说法是，有了更大的数据集，我们就可以为数据拟合更复杂（换句话说更灵活）的模型。经典统计学中有时提倡的一种粗略启发式(heuristic)是：数据点的数量应不少于模型中可学习参数数量的某个倍数（例如 5 或 10）。然而，当我们在本书后面讨论深度学习时，我们会发现使用参数明显多于训练数据点数量的模型可以获得出色的结果。

正则化

必须根据可用训练集的大小限制模型中参数的数量,这一点是相当令人不满的。根据解决问题的复杂性来选择模型的复杂度似乎更为合理。一种常用的控制过拟合现象的技术,作为限制参数数量的替代方法,是正则化(regularization),它涉及向误差函数(1.2)添加惩罚项以防止系数具有较大的幅度。最简单的这样的惩罚项可以是所有系数的平方和, 这将得到如下的修改后的误差函数形式:

$\tilde{E}(w)=\frac{1}{2}\sum_{n=1}^{N}\{y(x_n,\mathbf{w})-t_n\}^2+\frac{\lambda}{2}||\mathbf{w}||^2 \tag{1.4}$

其中 $||\mathbf{w}||^2≡\mathbf{w}^T\mathbf{w}=w_0^2+w_1^2+...+w_M^2$ ,且系数 $\lambda$ 控制正则化项与平方和误差项的相对重要性。请注意,由于其引入会导致结果依赖于目标变量(起点)的选择,因此常常省略系数 $w_0$ (Hastie, Tibshirani, and Friedman, 2009)。同样,误差函数在(1.4)中可以精确地以封闭形式最小化。统计学文献中称这种技术为shrinkage方法, 因为它们减小了系数的值。在神经网络的背景下,这种方法称为权值衰减(weight decay),因为神经网络中的参数称为权值(weights),这种正则化器鼓励它们衰减到零。

图1.9展示了 $M = 9$ 多项式与之前相同的数据集进行拟合的结果, 只不过现在使用给定的正则化误差函数(1.4)。我们看到,对于 $\lnλ=-18$ 的值,过拟合已经被抑制,现在我们获得了底层函数 $s in (2 π x)$ 的更接近表示。然而,如果我们使用太大的 $λ$ 值,我们再次获得糟糕的拟合,如图1.9中 $\lnλ=0$ 所示。配套的多项式系数在表1.2中给出,显示正则化产生了期望的缩减系数幅度。

正则化项对泛化误差的影响可以通过针对训练集和测试集的RMS误差(1.3)的值绘制 $\lnλ$ 的图来看出,如图1.10所示。我们看到 $λ$ 现在控制着模型的有效复杂性,从而确定过拟合的程度。

模型选择

数量 $λ$ 是一个超参数(hyperparameter)的例子,其值在最小化误差函数以确定模型参数 $\mathbf{w}$ 期间是固定的。我们不能通过联合针 $\mathbf{w}$ 和 $λ$ 最小化误差函数来简单地确定 $λ$ 的值,因为这将导致 $λ \to 0$ 和具有较小的或零训练误差的过拟合模型。类似地,多项式的阶数 $M$ 也是模型的一个超参数,针对 $M$ 优化训练集误差将导致 $M$ 的值很大并伴生过拟合。因此,我们需要找到确定超参数合适值的方法。上面的结果建议了一种简单的实现方法,即获取可用的数据并将其分区为训练集,用于确定系数 $\mathbf{w}$ ,以及单独的验证集(validation set),也称为留出集(hold-out set)或开发集(development set)。然后,我们选择在验证集上具有最低误差的模型。如果使用有限大小的数据集多次迭代模型设计,则可能会对验证数据进行一定程度的过拟合,因此可能需要保留另一个测试集(test set),在其上可以最终评估所选模型的性能。

对于某些应用程序,用于训练和测试的数据供应将是有限的。为了建立一个好的模型,我们应该尽可能多地使用可用的数据进行训练。但是,如果验证集太小,则它会提供一个相对含噪声的预测性能估计。解决这一困境的一个解决方案是使用交叉验证(cross-validation),如图1.11所示。这允许使用 $(S - 1) / S$ 的可用数据进行训练,同时利用所有数据来评估性能。当数据特别稀缺时,可能需要考虑 $S = N$ 的情况,其中 $N$ 是总的数据点数目,这就是所谓的留一法(leave-one-out technique)。

交叉验证的主要缺点是必须执行的训练轮次增加了 $S$ 倍，这对于训练本身计算成本昂贵的模型来说可能是有问题的。对交叉验证这样使用单独数据来评估性能的技术来说，另一个问题是，单个模型可能有多个复杂超参数（例如，可能有多个正则化超参数）。在最坏的情况下，探索此类超参数设置的组合可能需要进行多次训练，而这些训练的轮次将是超参数数量的指数级。现代机器学习的最新技术涉及非常大的模型，并在相当大的数据集上进行训练。因此，超参数设定的探索范围通常是很有限的，并且严重依赖较小模型和启发式方法获得的经验。

将多项式拟合到由正弦函数生成的合成数据集的简单示例已经说明了机器学习的许多关键思想，我们将在以后的章节中进一步使用这个示例。然而，机器学习的实际应用在几个重要方面有所不同。用于训练的数据集的大小可以大很多个数量级，并且通常会有更多的输入变量，例如用于图像分析的输入变量可能有数百万，以及多个输出变量。将输出与输入联系起来的可学习函数由一类称为神经网络的模型控制，这些模型可能具有数千亿的巨量参数，并且误差函数将是这些参数的一个高度非线性函数。误差函数不再能够通过封闭式解来最小化，而是必须通过基于误差函数相对于参数的导数的评估的迭代优化技术来最小化，所有这些都可能需要专门的计算硬件并产生大量的计算成本。

机器学习简史

机器学习有着悠久而丰富的历史，包括对多种替代方法的追求。在这里，我们重点关注基于神经网络的机器学习方法的演变，因为它们代表了深度学习的基础，并已被证明是现实世界应用中最有效的机器学习方法。

神经网络模型最初受到人类和其他哺乳动物大脑信息处理研究的启发。大脑中的基本处理单元是称为神经元的电活性细胞，如图 1.12 所示。当神经元“放电”时，它会沿着轴突发送电脉冲，到达称为突触的连接处，突触与其他神经元形成连接。称为神经递质的化学信号在突触处释放，这些信号可以刺激或抑制后续神经元的放电。

人脑总共包含约 900 亿个神经元，每个神经元平均有数千个突触，与其他神经元一起形成一个总共约 100 万亿（1014）个突触的复杂网络。如果某个特定的神经元从其他神经元的放电中接收到足够的刺激，那么它也可以被诱导放电。然而，一些突触具有负面或抑制作用，即输入神经元的激发使得输出神经元不太可能激发。一个神经元引起另一个神经元放电的程度取决于突触的强度，而这些强度的变化代表了大脑存储信息和从经验中学习的关键机制。

神经元的这些特性已经被捕获在非常简单的数学模型中，称为人工神经网络(artificial neural networks)，然后形成计算学习方法的基础（McCulloch 和 Pitts，1943）。许多模型通过形成其他神经元输出的线性组合然后使用非线性函数进行转换来描述单个神经元的属性。这可以用数学形式表达：
$\sum_{i=1}^M w_ix_i \tag{1.5}$
$\tag{1.6}$

其中 $x_1 , \cdots , x_M$ 表示与向该神经元发送连接的其他神经元的活动相对应的 $M$ 个输入， $w_1, \cdots ,w_M$ 是连续变量，称为权重(weights)，代表相关突触的强度。量 $a$ 称为预激活(pre-activation)，非线性函数 $f(\cdot)$ 称为激活函数(activation function)，输出 $y$ 称为激活(activation)。我们可以看到，多项式 (1.1) 可以被视为该表示形式的一个特定实例，其中输入 $x_i$ 由单个变量 $x $的幂给出，而函数$ f(\cdot)$只是恒等式 $f (a) = a$ 。 (1.5) 和 (1.6) 给出的简单数学公式构成了从 20 世纪 60 年代至今神经网络模型的基础，并且可以用图表形式表示，如图 1.13 所示。

单层网络

根据以处理“层”数衡量的网络复杂程度，人工神经网络的历史大致可分为三个不同的阶段。 (1.5) 和 (1.6) 描述的简单神经模型可以被视为具有与图 1.13 中的单层连接相对应的单层处理。神经计算历史上最重要的此类模型之一是感知器（Rosenblatt，1962），其中激活函数 $f(\cdot)$ 是以下形式的阶跃函数
$\begin{cases} 0, & \text{if } a \leq 0，\\ 1, & \text{if } a > 0， \end{cases} \tag{1.7}$

这可以被视为神经放电的简化模型，其中当且仅当总加权输入超过阈值 $0$ 时，神经元才会放电。*感知机(perceptron)*由 Rosenblatt (1962) 首创，他开发了一种特定的训练算法，该算法具有一个有趣的特性是，如果存在一组权重值，感知机可以对其训练数据实现完美分类，那么算法就可以保证在有限数量的步骤中找到解决方案（Bishop，2006）。除了学习算法之外，感知机还有专用的模拟硬件实现，如图 1.14 所示。典型的感知机配置具有多层处理，但只有其中一层可以从数据中学习，因此感知机被认为是“单层”神经网络。

起初，感知机以类似大脑的方式从数据中学习的能力被认为是非凡的。然而，很明显该模型也存在重大局限性。 Minsky 和 Papert (1969) 分析了感知机的性质，并给出了单层网络能力有限的正式证明。不幸的是，他们还推测类似的限制将扩展到具有多层可学习参数的网络。尽管后一个猜想被证明是完全错误的，但其影响是抑制了人们对神经网络模型的热情，这导致了 20 世纪 70 年代和 1980 年代初期人们对神经网络缺乏兴趣和资金。此外，由于缺乏有效的算法来训练多层网络，研究人员无法探索多层网络的性质，因为感知机算法等技术特定于单层模型。请注意，尽管感知机早已从实际机器学习中消失，但该名称仍然存在，因为现代神经网络有时也称为多层感知机（multilayer perceptron 或 MLP。

反向传播

训练具有不止一层可学习参数的神经网络问题的解决方案来自于微分学(differential calculus)的应用和基于梯度的优化方法的应用。一个重要的变化是将阶跃函数（1.7）用具有非零梯度的连续可微激活函数加以替换。另一个关键修改是引入可微误差函数，该函数定义给定的参数值选择预测训练集中目标变量的效果。当我们使用平方和误差函数 (1.2) 来拟合多项式时，我们看到了此类误差函数的示例。

通过这些更改，我们现在有了一个误差函数，其相对网络中每个参数的导数都可以计算。我们现在可以考虑具有不止一层参数的网络。图 1.15 显示了一个具有两个处理层的简单网络。中间层的节点称为隐藏单元(hidden units)，因为它们的值不会出现在训练集中，训练集中仅提供输入和输出的值。图 1.15 中的每个隐藏单元和每个输出单元都计算由 (1.5) 和 (1.6) 给出的形式的函数。对于给定的一组输入值，可以通过重复应用（1.5）和（1.6）来评估所有隐藏单元和输出单元的状态，其中信息沿箭头方向通过网络向前流动。因此，此类模型有时也称为前馈神经网络(feed-forward neural networks)。

为了训练这样的网络，首先使用随机数生成器初始化参数，然后使用基于梯度的优化技术迭代更新。这涉及求取误差函数的导数，这可以在称为误差反向传播(error backpropagation) 的过程中有效地完成。在反向传播中，信息通过网络从输出向后流向输入（Rumelhart、Hinton 和 Williams，1986）。存在许多不同的优化算法，它们利用要优化的函数的梯度，但机器学习中最流行的一种也是最简单的，被称为随机梯度下降(stochastic gradient descent, SGD)。

训练具有多层权重的神经网络的能力是一项突破，从 20 世纪 80 年代中期开始，人们对该领域的兴趣重新兴起。这也是该领域超越对神经生物学灵感的关注并发展出更严格和有原则的基础的时期（Bishop，1995b）。特别是，人们认识到概率论和统计学领域的思想在神经网络和机器学习中发挥着核心作用。一个关键的洞见是：**从数据中学习涉及对背景的假设，有时称为先验知识(prior knowledge)或归纳偏差( inductive biases)。这些可能会被显式地纳入，例如通过设计神经网络的结构，使得皮肤病变的分类不依赖于图像中病变的位置，或者它们可能采取从模型的数学形式或训练方式导出的隐式假设形式。

反向传播和基于梯度的优化戏剧性的提升了神经网络解决实际问题的能力。然而，人们还观察到，在多层网络中，只有最后两层的权重才能学习有用的值。除了少数例外，尤其是用于图像分析的卷积神经网络模型（LeCun 等人，1998），具有两层以上的网络的成功应用非常少。这再次限制了此类网络可以有效解决的问题的复杂性。为了在许多应用中取得合理的性能，有必要使用手工预处理将输入变量转换到一些新的空间，以期机器学习问题能够更容易解决。该预处理阶段有时也称为特征提取。尽管这种方法有时是有效的，但如果可以从数据中学习特征而不是手工制作，显然会更好。

到了新千年之初，可用的神经网络方法再次达到了其能力的极限。研究人员开始探索神经网络的一系列替代方案，例如核方法、支持向量机、高斯过程等等。尽管核心研究人员继续追求一种真正有效的方法来训练多层网络，但神经网络再次失宠。

深度网络

神经网络发展的第三个阶段（也是当前阶段）开始于 21 世纪第二个十年。一系列的发展使得具有多层权重的神经网络能够得到有效的训练，从而消除了以前对这些技术能力的限制。具有多层权重的网络称为深度神经网络(deep neural networks)，而专注于此类网络的机器学习子领域称为深度学习(deep learning)（LeCun、Bengio 和 Hinton，2015）。

深度学习起源的一个重要主题是神经网络规模的显著增加（以参数数量来衡量）。尽管具有几百或几千个参数的网络在 20 世纪 80 年代很常见，但这一数字稳步上升到数百万，然后是数十亿，而当前最先进的模型可以有 1 万亿（ $10^{12}$ ）参数。具有许多参数的网络需要相应大的数据集，以便训练信号可以为这些参数产生良好的值。海量模型和海量数据集的结合反过来又需要在训练模型时进行大规模计算。被称为图形处理单元或 GPU 的专用处理器原本是为视频游戏等应用的图形数据快速渲染而开发的，事实证明非常适合神经网络的训练，因为网络同层单元所计算函数可以并行计算，这很好地贴合了 GPU 的大规模并行性（Krizhevsky、Sutskever 和 Hinton，2012）。如今，最大模型的训练是在由专业高速互连连接的数千个 GPU 组成的大型阵列上进行的。

图 1.16 说明了训练最先进的神经网络所需的计算周期数量(the number of compute cycles)多年来如何增长，图中显示了两个不同的增长阶段。纵轴具有指数刻度，单位为 petaflop/s-day，其中 petaflop 代表 $10^{15}$ （千万亿）次浮点运算，petaflop/s 表示每秒 1 petaflop。 1 petaflop/s-day 表示 24 小时内以 petaflop/s 的速率进行计算，大约为 $10^{20}$ 次浮点运算，因此，图表的顶线代表了令人印象深刻的 $10^{24}$ 次浮点运算。图中的一条直线代表指数增长，我们看到从感知机时代到2012年左右，翻倍的时间在2年左右，这与摩尔定律导致的计算能力的普遍增长是一致的。从标志着深度学习时代的 2012 年开始，我们再次看到指数级增长，但翻倍时间现在为 3.4 个月，相当于计算能力每年增长 10 倍！

人们经常发现，由于架构创新或更复杂形式的归纳偏差的结合而带来的性能改进很快就被简单地通过扩大训练数据量以及模型大小和用于训练的计算能力的相应扩展所取代（Sutton，2019）。大型模型不仅可以在特定任务上具有卓越的性能，而且还能够使用相同的经过训练的神经网络解决更广泛的不同问题。大语言模型是一个值得注意的例子，因为单个网络不仅具有非凡的能力，而且甚至能够超越旨在解决特定问题的专门网络。

我们已经看到深度在让神经网络实现高性能方面发挥着重要作用。理解深度神经网络中隐藏层的作用的一种方法是表示学习(representation learning)（Bengio、Courville 和 Vincent，2012），其中网络通过学习将输入数据转换为具有语义意义的新表示，从而使得最后一层或多层要解决的问题变得容易得多。这种内部表示可以重新调整用途(repurposed)以便通过迁移学习解决相关问题，正如我们在皮肤病变分类中看到的那样。有趣的是，用于处理图像的神经网络可以学到与在哺乳动物视觉皮层中观察到的非常相似的内部表征。可以*适应(adapted)或微调(fine-tuned)*以适应一系列下游任务的大型神经网络称为基础模型(foundation models)，基础模型可以利用大量异构数据集来创建具有广泛适用性的模型（Bommasani 等人，2021）。

除了规模化之外，还有其他一些进展也有助于深度学习的成功。例如，在简单的神经网络中，训练信号在通过深度网络的连续层反向传播时会变得更弱。解决这个问题的一种技术是引入残差连接(residual connections)（He et al., 2015a），它有助于训练数百层的网络。另一个关键的发展是引入了*自动微分(automatic differentiation)*方法，其中执行反向传播以计算误差函数梯度的代码是从用于指定前向传播的代码自动生成的。这使得研究人员能够快速试验神经网络的不同架构，并非常容易地以多种方式组合不同的架构元素，因为只需要显式编码相对简单的前向传播函数。此外，机器学习的许多研究都是通过开源进行的，这使得研究人员得以在其他人的工作基础上进行研究，从而进一步加快该领域的进展速度。

你可能感兴趣的:(深度学习:,基础与概念,深度学习,人工智能,机器学习)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
别再讲道理啦，对方听不进去的方所
我之前写过一篇叫做《你总妄想改变他人》，然后就有朋友跟我说，有一些方法可以改变他人之类的。嗯，是这样，但是任何具体的问题，都要限定好语境，描述清楚前提条件，然后再表达观点，我的这位朋友的说法就犯了一刀切的错误，这样并不能让讨论正常展开（这篇我得先给她看看，不然可能会挨揍）。好了，hhhh，谁让她不能写文章呢，我就来再说一说吧。我前面说过，我们在学到一个道理、学会一种方法之后，总是迫不及待地想要去与
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
Linux系统配置（应用程序） 1风天云月 Linux linux 应用程序编译安装 rpm http
目录前言一、应用程序概述1、命令与程序的关系2、程序的组成3、软件包封装类型二、RPM1、RPM概述2、RPM用法三、编译安装1、解包2、配置3、编译4、安装5、启用httpd服务结语前言在Linux中的应用程序被视为将软件包安装到系统中后产生的各种文档，其中包括可执行文件、配置文件、用户手册等内容，这些文档被组织为一个有机的整体，为用户提供特定的功能，因此对于“安装软件包”与“安装应用程序”这两
第28章汇编语言--- 异常处理 hummhumm 汇编算法开发语言程序设计高级语言异常处理汇编语言
在汇编语言中，异常处理是一个重要的概念，它涉及到处理器如何响应和处理程序运行时发生的非正常情况。异常可以是硬件错误（例如除零错误、非法指令）或者软件触发的中断（例如系统调用）。当发生异常时，处理器会暂停当前正在执行的程序，并转移到一个预先定义好的位置来处理这个异常。为了详细阐述第28章关于汇编语言中的异常处理，我们可以考虑一个简化的例子，展示异常处理的基本结构。请注意，实际的代码将取决于具体的处理
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
车载刷写架构 --- 刷写思考扩展汽车电子实验室电子电器架构——刷写方案架构开发语言关于网关转发性能引起的思考汽车中央控制单元HPC软件架构车载诊断进阶篇
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
氧惠官方邀请码333777，氧惠邀请码怎么获得？氧惠邀请码有什么套路？知行导师
问：氧惠邀请码怎么获得？答：氧惠官方邀请码333777返点高佣金高真的高。问：氧惠邀请码有什么套路？答：氧惠官方邀请码333777返点高佣金高真的高。氧惠APP汇聚各大主流电商和生活服务平台优惠，展示全网全品类商品，满足网购爱好者对品质好货与极致性价比的追求，并同时享受大平台购物权益保障。满足用户日常吃喝玩乐衣食住行的聚合APP，独特的商业模式，响应国家号召，为实现全民共富而努力奋斗。氧惠邀请码3
2023-01-26 胡喜平
我觉得《可见的学习》一书确实从底层逻辑说清楚了，教学的本质。可是太多术语和概念，一时间难以消化啊。而且知道和懂得有距离，运用就更不行了，需要高手和专家的指导。我需要多听听新课标的讲座了，来反复印证。读论文也有了一点点灵感，明天修改我的论文。
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
【老房翻新】92平轻奢简约风，将和谐之美融入空间！没人比我更懂装修
在客厅空间中，设计师于冷静的空间基调中选用了层次感丰富的黄蓝色作为主要跳色，搭配黑白纹理的地毯与单椅，为空间增加了时尚摩登的气息。艺术感的单品突出点亮了空间，绿植的点缀、留白的软饰则增强了空间的呼吸性。点击此处添加图片说明文字点击此处添加图片说明文字设计师力求使每一处的设立都在空间中达到相互间的呼应与制衡，将艺术的跃动之美赋于空间之上，也将空间的和谐之美融于生活之中。点击此处添加图片说明文字点击此
京东家电年销售额是去年的1300%，主要来自于他.... Shanshan小课堂
经过大半个月角逐纠缠，时间终于来到6月18日，618全球年中购物节迎来最高潮。作为国内最大的家电零售平台，京东家电从18日0点开始，便开启了飞速狂奔的模式，仅8分钟销售额就突破20亿元!展现出强劲的增长势头与家电主场的王者霸气的同时，也让各家电品牌实现了爆发式增长，美的、海尔、格力、奥克斯均在3分钟内突破1亿元大关。在今年的618中，除了消费者已经熟悉的网购形式外，线上线下联动的融合模式、社交电商
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end