【论文精读】Transformer

摘要

以往的循环神经网络如LSTM和GRU，在序列建模和翻译问题中已经成为最先进的方法，但由于其循环结构，导致无法并行化计算，且难以对长序列的全局关系建模。故本文提出Transformer，一种非递归式的模型架构，完全依靠注意力机制来获取序列输入和输出之间的全局依赖关系，且Transformer允许并行化计算。具体为：

提出自注意力机制，是一种为了方便计算序列表示而关联单个序列的不同位置的注意力机制
基于循环注意力机制的端到端网络，已被证明在简单语言问答和语言建模任务上表现良好
第一个完全使用自注意力来计算序列输入输出的表示转换关系的模型

架构

Transformer采用编码器-解码器结构，编码器将输入序列 $(x_1,\dots,x_n)$ 映射为表示 $(z_1,\dots,z_n)$ ，解码器再将 $z$ 生成为输出序列 $(y_1, \dots, y_m)$ 。解码器生成下一个元素时，会将之前生成的元素作为额外的输入，且每次只生成一个元素，该过程称为自回归。编码器和解码器使用堆叠的自注意力和全连接层，如上图。

Encoder and Decoder Stacks

Encoder

编码器由 $N = 6$ 个相同结构层的堆栈组成，每一层都有两个子层，分别为多头自注意力机制（MSA）和全连接前馈神经网络（FFN）。其中，每个子层都采用残差连接进行层归一化，即，每个子层的输出为：

$L a yer N or m (x + S u b l a yer (x))$

其中 $S u b l a yer (x)$ 为子层自身实现的功能。为了促进这些残差连接，模型的所有子层及嵌入层输出维度都为 $d_{model} = 512$ 。

Decoder

解码器也由 $N = 6$ 个相同结构层的堆栈组成。每个解码器层除了有MSA、FFN两个子层外，还在中间插入第三个子层，该子层会对编码器的输出执行多头交叉注意力。与编码器类似，解码器层的每个子层也采用残差连接进行层归一化。其次，会对解码器中的所有自注意力子层添加掩码屏蔽，防止当前位置的自注意力关注后续位置的输入，确保对位置 $i$ 的预测只能依赖于位置小于 $i$ 的已知输出。

Attention

注意力函数会将query和一组key-value对映射到输出，query、key、value和输出都是向量。其中，输出定义为以value为值、以query和对应的key经过兼容性函数计算的结果为权重的加权和。

Scaled Dot-Product Attention

缩放点积注意力的输入有维度为 $d_k$ 的query、key以及维度 $d_v$ 的value。首先计算单个query与所有key的点积，并分别除以 $\sqrt d_k$ ，随后应用softmax获得 value的权重并与value做点积计算得到加权和。

在实践中，会同时计算一组query的注意力函数。将给定的一组query打包成矩阵Q，key和value分别打包成矩阵K和V ，则输出矩阵的计算公式为：

$Attention(Q,K,V)=softmax(\frac {QK^T} {\sqrt{d_k}})V$

两个常用的注意力函数是加性注意力和点积注意力。点积注意力使用点积操作为兼容性函数（如上式，除了缩放因子 $\frac 1 {\sqrt {d_k}}$ ），加性注意力使用单层前馈神经网络作为兼容性函数。两者的理论复杂度相似，但点积注意力在实践中要更快，且空间效率更高，因为其可以使用高度优化的矩阵乘法代码来实现。

对于 $d_k$ 较小的value，两种注意力机制在实验中的表现类似，但对于 $d_k$ 较大的value，加性注意力的表现优于点积注意力。故怀疑对于 $d_k$ 较大的value，点积的输出量级会增大，这会将softmax函数的梯度缩放到极小的区域，从而导致梯度消失。为了避免该问题，故将点积使用 $\frac 1 {\sqrt {d_k}}$ 进行缩放，整体流程如上图左。

Multi-Head Attention

与使用输出维度为 $d_{model}$ 的key、value和query执行单个注意力函数不同，本文发现对query、key和value使用h次（注意力头数）不同的线性投影（缩放点积注意力）对模型的最终表现有益，其中每个头都会分别学习到 $d_k$ 、 $d_k$ 和 $d_v$ 维度的线性投影。实践中，会对query、key和value在多个头上并行执行注意力函数，其中每个头都会产生 $d_v$ 维度的输出值，并将这些输出值concat起来再次投影，从而得到最终的输出值，如上图右。

多头注意允许模型关注来自不同位置的不同表示子空间的信息。如果只有一个注意力头，理论上就只能关注到这些子空间的平均信息。多头自注意力的公式如下：

$MultiHead(Q,K,V)=Concat(head_1,\dots,head_h)W^O$

$\ head_i=Attention(QW^Q_i,KW^K_i,VW^V_i)$

其中，投影参数矩阵 $W^Q_i\in\R^{d_{model}\times d_k}$ ， $W^K_i\in\R^{d_{model}\times d_k}$ ， $W^V_i\in\R^{d_{model}\times d_v}$ ， $W^O_i\in\R^{hd_v\times d_{model} }$ 。本工作采用了 $h = 8$ 的多头注意力机制，其中每一个头的输出维度为 $d_k = d_v = d_{model}/h = 64$ ，由于每个头的投影维度降低，总计算成本与单头注意力相同。

Applications of Attention in our Model

Transformer以三种不同的方式使用多头自注意力机制：

在交叉注意力层中，query为前一个解码器子层的输出，key和value为编码器的输出。解码器中的每个位置都可以关注输入序列中的所有位置
编码器的自注意力子层中，key、value和query都为编码器中前一子层的输出。编码器中的每个位置都可以关注输入序列的所有位置。
解码器的自注意力子层中，允许解码器中的每个位置关注包括该位置本身的解码器中的所有位置。但需要防止解码器中的左向信息流，以保持自回归特性，在缩放点积注意力中通过掩码屏蔽（将左向连接的softmax的输入设为 $-\infty$ ）来实现这一点。

Position-wise Feed-Forward Networks

编码器和解码器中的每一层都包含一个全连接前馈网络，其由两个ReLU激活的线性变换组成，并独立地应用于每一个位置的输出，同一层FFN的每个位置输入都使用相同参数的线性变换，不同层使用不同参数的线性变换。公式如下：

$FFN(x)=max(0,xW_1+b_1)W_2+b_2$

另一种FFN方法是采用两个卷积核大小为1的卷积神经网络，输入和输出的维度是 $d_{model} = 512$ ，两个卷积中间层的维为 $d_{ff} = 2048$ 。

Embeddings and Softmax

与其他序列模型类似，本文使用可学习嵌入层将输入token和输出token转换为维度 $d_{model}$ 的向量，并使用可学习的线性变换和softmax函数将解码器输出转换为要预测的下一个token概率。编解码器的两个嵌入层和输出softmax层之前的线性变换层之间共享相同的权重矩阵。在嵌入层中，权重会乘以 $\sqrt {d_{model}}$ 。

Positional Encoding

由于transformer中不包含递归和卷积层，模型无从得知输入序列的位置信息。为了让模型利用序列的位置信息，会在编码器和解码器堆栈的底部向输入嵌入添加位置编码（Positional Encoding）。位置编码与嵌入具有相同的维度 $d_{model}$ ，因此可以将两者相加。

本工作中，使用不同频率的正弦函数和余弦函数做位置编码信息，公式如下：

$PE_{(pos,2i)}=sin(pos/10000^{2i/d_{model}})$

$PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{model}})$

其中pos是序列位置，i是维度，位置编码的每个维度对应一个波长呈 $2 π$ 到 $10000 \cdot 2 π$ 几何级数的正弦信号。对于任何固定偏移 $k$ , $PE_{pos+k}$ 可以表示为 $PE_{pos}$ 的线性变换，故该函数可以让模型轻松学习相对位置的注意，且可以让模型在训练期间使用的序列长度之外推广。

Why Self-Attention

本节将自注意力层与递归层和卷积层进行比较，递归层和卷积层通常用于将一个变长序列 $(x_1, \dots, x_n)$ 映射到另一个等长序列 $(z_1, \dots, z_n)$ ， $x_i , z_i \in \R^d$ 。故考虑三个层面的对比：

每层的总计算复杂度
可并行化的计算量，由所需的最小并行操作数进行度量
网络中长程依赖性的最大路径长度

结果如上表，自注意层以常数数量的操作连接所有位置，而循环层需要 $O (n)$ 顺序操作，故自注意力层的并行化能力更强。在计算复杂度方面，当序列长度 $n$ 小于表示维度 $d$ 时，自注意力层比循环层更快。为了提高处理非常长序列的任务的计算性能，可以将自注意计算范围限制在输入序列中以相应输出位置为中心的大小为 $r$ 的邻域，这将增加最大路径长度到 $O (n / r)$ 。

具有核宽度 $k < n$ 的单个卷积层无法连接所有输入和输出位置对，需要 $O (n / k)$ 个卷积层或 $O(log_k(n))$ 个扩张卷积的堆栈，才能增加网络中任意两个位置之间最长路径的长度。卷积层的计算复杂度是循环层的 $k$ 倍，但是可分离卷积可以将复杂度降低到 $O(k · n · d + n · d^ 2 )$ ，然而，即使是 $k = n$ ，可分离卷积的复杂性也等于自注意力层和前馈层的组合。

Training

Training Data and Batching

本工作在标准的WMT 2014英德数据集上进行训练，该数据集包含大约450万个句子对，使用BPE对句子进行编码，该编码词汇表大约包含37000个token。对于英法翻译，使用了更大的WMT 2014英法数据集，包含3600万个句子对，使用32000个token的word-piece词汇表。句子对按近似序列长度进行批处理，每个训练批次包含一组句子对，其中包含大约25000个源token和25000个目标token的句子对。

Hardware and Schedule

本工作在一台拥有8个NVIDIA P100 gpu的机器上训练模型。对于transformer基本模型，每个训练步骤大约需要0.4秒，基础模型总共进行了10万步即12小时的训练。对于大型模型，每个训练步骤大约需要1.0秒，模型训练了30万步（3.5天）。

Optimizer

本工作使用超参数为 $β_1 = 0.9, β_2 = 0.98和ϵ = 10^{−9}$ 的Adam优化器，在训练过程中根据下面的公式改变学习率:

$lrate=d^{-0.5}_{model}\cdot \min(step\_num^{-0.5},step\_num\cdot warmup\_steps^{-1.5})$

相当于在前warmup_steps个训练步骤中线性增加学习率，之后根据步数的倒数平方根成比例地减小学习率。warmup_steps = 4000。

Regularization

在训练过程中使用了三种正则化方法。

Residual Dropout：在每个子层的输出归一化之前，对该子层输出上应用Dropout；此外，还在编码器和解码器堆栈中的嵌入和位置编码的和上应用Dropout。基础模型的 $P_{drop} = 0.1$ 。

Label Smoothing：在训练过程中，使用了值为 $ϵ_{ls} = 0.1$ 的标签平滑。这会增加模型的困惑度，因为模型的学习目标变得更不确定，但提高了准确性和BLEU分数。

实验

Machine Translation

结果如上表，在WMT 2014英德翻译任务中，big transformer模型比之前报告的最好模型高出2.0BLEU，建立了一个新的最先进的BLEU分数28.4。在WMT 2014英法翻译任务中，big transformer达到了41.0的BLEU分数，超过了之前发表的所有单个模型。另外，为英法翻译任务训练的Transformer（big）模型使用的Dropout丢弃率为 $P_{drop} = 0.1$ 。两个任务上的训练成本都是最低的。

对于base transformer，使用一个通过平均最后5个checkpoint参数得到的单一模型，big transformer平均了最后20个checkpoint。翻译任务使用beam search，beam大小为4，长度惩罚 $α = 0.6$ 。在推理期间将最大输出长度设置为输入长度+50，但在可能的情况下尽早终止。

Model Variations

为了评估Transformer不同组件的重要性，本工作以不同的方式改变了基础模型，并测量了在开发集newstest2013上英德翻译性能的变化。本实验使用了上一节中描述的beam search，但没有使用checkpoint平均。

结果如上表。在行（A）中，改变attention头的数量以及attention key和value维度，并保持计算量不变，观察到，虽然单头注意力比最佳设置差0.9BLEU，但过多的头也会导致质量下降。

在行（B）中，观察到减少key的维度会损害模型质量。这表明确定兼容性函数并不容易，比点积更复杂的兼容性函数可能是有益的。在（C）和（D）行中进一步观察到，模型越大越好，dropout在避免过拟合方面非常有用。在行（E）中，将正弦位置编码替换为可学习位置嵌入，并观察到几乎相同的结果。

English Constituency Parsing

为了评估Transformer是否可以泛化到其他任务，在英语短语句法分析上进行了实验。这项任务的输出会受到强结构约束，并且输出会比输入长得多。

实验用Penn Treebank的Wall Street Journal（WSJ）部分训练了一个 $d_{model} = 1024$ 的4层transformer，大约40K训练句子。还使用更高的置信度和大约有17M数据的BerkleyParser语料库进行了半监督训练。为WSJ使用了16K个token的词汇表，为半监督设置使用了32K个token的词汇表。

本实验只进行了少量实验来选择dropout、注意力和残差、学习率和beam大小，所有其他参数都与英德基础翻译模型保持不变。在推理过程中，将最大输出长度增加到输入长度+300；对于WSJ和半监督，beam大小为21、长度惩罚 $α = 0.3$ 。

结果如上表，尽管缺乏特定任务的调优，但除了循环神经网络，产生了比所有之前的模型更好的结果。与RNN序列到序列模型相比，即使只在WSJ的40K句子训练集上训练，Transformer的表现也优于BerkeleyParser。

visualization

自注意力可以产生更可解释的模型，本实验检查模型的注意力分布。如下图，观察到单个注意力头不仅清楚地学会了执行不同的任务，而且许多注意力头似乎表现出与句子的句法和语义结构相关的行为。

reference

Vaswani, A. , Shazeer, N. , Parmar, N. , Uszkoreit, J. , Jones, L. , & Gomez, A. N. , et al. (2017). Attention is all you need. arXiv.

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
大模型的学习 LLaMa和ChatGLM，minichatgpt4 贝猫说python 学习 llama 人工智能
LLaMa和ChatGLM，minichatgpt4什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？答：Bert的模型由多层双向的Transformer编码器组成，由12层组成，768隐藏单元，12个head，总参数量110M，约1.15亿参数量。NLU（自然语言理解）任务效果很好，单卡GPU可以部署，速度快，V100GPU下1秒能处理2千条以上。ChatGLM-6B,
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
数字逻辑不可能涌现出智能 dog250 人工智能
先看一系列竖式乘法的步骤：相乘的两个数数位越大，步骤越多。如果不纠结数制，二进制运算也是这回事，把单个步骤用一个晶体管表达(其实一个步骤不止一个晶体管)，数位越大，所需的晶体管越多。先说结论，所有基于n进制的逻辑运算都不可扩展。硅基时序电路可如此巧妙完成精确计算，开启了数字化时代，人们试图将AI构建在这二进制世界。但若二进制运算不可扩展，基于数字逻辑的人工智能就不可能。前面提到过，二进制运算本质上
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
让数据说话：人工智能与六西格玛的完美结合张驰课堂人工智能六西格玛
当人工智能与六西格玛结合，企业可以充分利用人工智能技术的数据处理、预测分析和智能决策支持能力，实现数据驱动的决策、质量控制和流程优化，从而提高企业的效率和竞争力。下面张驰咨询给大家具体的介绍：1、数据驱动决策六西格玛侧重于数据分析和决策制定，而人工智能可以提供更强大的数据处理和分析能力。通过人工智能技术，可以自动收集和整理大量的数据，并进行有效的数据挖掘和模式识别。这些数据分析结果可以为六西格玛项
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
AI原生安全亚信安全首个“人工智能安全实用手册”开放阅览亚信安全官方账号安全网络 web安全人工智能大数据
不断涌现的AI技术新应用和大模型技术革新，让我们感叹从没有像今天这样，离人工智能的未来如此之近。追逐AI原生？企业组织基于并利用大模型技术探索和开发AI应用的无限可能，迎接生产与业务模式的全面的革新。我们更应关心AI安全原生。实施人工智能是一项复杂又长远的任务，任何希望利用大模型的组织在设计之初，都必须将安全打入地基，安全一定是AI技术发展的核心要素。针对人工智能和大模型面临的威胁与攻击模式，亚信
开发chrome扩展（禁止指定域名使用插件）徐同保 chrome 前端
mainfest.json:{"manifest_version":3,"name":"ChatGPT学习","version":"0.0.2","description":"ChatGPT,GPT-4,Claude3,Midjourney,StableDiffusion,AI,人工智能,AI","icons":{"16":"./images/logo.png","48":"./images/lo
ai智能语音机器人的出现未来电销行业会如何发展？ VO_794632978 WX-794632978 语音机器人人工智能机器人交互语音识别大数据
人工智能和移动互联网技术的发展，对于很多行业都产生了颠覆性的影响。而对于电销这一重复度较高的行业来说，也是产生了巨大的推动作用。对于传统电销人来说，电销机器人可以帮助你提高销售效率，提高影响客户的能力和转化率，将你过去繁琐简单无效的需要个人做的工作，都交给机器，让你的时间和精力，放在重要的客户和有创造性的事情上。我们一起来看看都有哪些发展。自动化程度提高：AI机器人能够不间断地工作，自动拨打电话、
MATLAB 2023a：强化学习算法的实战演练与性能评估 zmjia111 机器学习 matlab matlab 算法开发语言深度学习机器学习 yolo
在深度学习领域，MATLAB2023版深度学习工具箱以其完整的工具链和高效的运行环境，为研究人员和开发者提供了前所未有的便利。这一工具箱不仅集成了建模、训练和部署的全部功能，更以其简洁易用的语法和强大的算法库，为深度学习任务的快速实现铺平了道路。相较于Python等编程语言，MATLAB的语法更为直观，上手更为迅速。无需繁琐的环境配置和库安装，用户只需打开MATLAB界面，即可轻松开始深度学习之旅
动手学习深度学习——2.5 自动微分 X_Imagine 动手学习深度学习深度学习人工智能自动微分
2.5自动微分正如【2.4微积分】所说，微分是深度学习中几乎所有最优化算法的关键步骤。虽然求这些导数的计算过程很简单，只需要一些基本的微积分知识。但对于复杂的模型，手工计算参数的更新可能很痛苦(而且经常容易出错)。深度学习框架通过自动计算导数加快了这一工作，即自动微分（AutomaticDifferentiation）。在实践中，基于我们设计的模型，系统构建了一个计算图，跟踪哪些数据结合哪些操
生成式AI竞赛：开源还是闭源，谁将主宰未来？新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/对于一些行业观察家来说，这场战斗似乎还没开始就已结束。当ChatGPT成为有史以来增长最
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
从政府工作报告探计算机行业发展想你依然心痛个人总结与成长规划行业发展前景
文章目录每日一句正能量前言以“数”谋新、加“数”向实人工智能方面人工智能成核心驱动引擎软件方面通信方面后记每日一句正能量该来的始终会来，千万别太着急，如果你失去了耐心，就会失去更多。该走过的路总是要走过的，从来不要认为你走错了路，哪怕最后转了一个大弯。这条路上你看到的风景总是特属于你自己的，没有人能夺走它。前言2024年的两会是中国政治日历上一次重要的会议，吸引了全球的目光。在这次两会中，计算机行
chatGLM-6B部署报错quantization_kernels_parallel.so‘ (or one of its dependencies). Try using the full pat FL1623863129 环境配置深度学习
用python部署chatglm2时候报错：FileNotFoundError:Couldnotfindmodule'C:\Users\Administrator\.cache\huggingface\modules\transformers_modules\chatglm2-6b-int4\quantization_kernels_parallel.so'(oroneofitsdependenc
ego - 人工智能原生 3D 模拟引擎——基于AI的3D引擎，可以做游戏、空间计算、元宇宙等项目花生糖@ AIGC学习资源人工智能游戏空间计算
1.产品概述：Ego是一款AI本地化的3D模拟引擎，旨在让非技术创作者通过自然语言生成逼真的角色、3D世界和交互式脚本。该平台提供了创建和分享游戏、虚拟世界和交互体验的功能。2.定位：Ego定位于解决开放世界游戏和模拟的三大难题：难以编写游戏脚本、非玩家角色无法展现人类行为以及创建新的3D资产和世界的难度。通过AI技术，Ego致力于让用户可以用自然语言创建复杂的游戏和交互体验。3.创始人背景：创始
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开