KINGHMY

深度学习 NLP-Transformer and variant (TF and 魔改s）

1. 写在前面`开胃菜`

这一部分主要阐述，写这篇文章的动机，所以是开胃菜。

1. 所谓“魔改”

实际工业界里，很难在论文中找到模型+数据都直接符合需求的NLP model。如果要在某类task上开始一轮新的工作，最好在相似的任务上“魔改”操作。

2. why and how

总的来说，新的paper经过学术界同行监督，总是会有新的进步，比如：

1.模型效果、提高可解释性
2.加速推理、减少参数量
3.更好地提取数据特征
4.泛化地在领域内的任务中应用

如何去做呢？

1.以史为鉴：关注task发展史，看前辈如何踩坑避障
2.关注SOTA：了解最新的架构设计和应用
3.总结：听专家总结，梳理自己的知识体系

3. 正文预告

15-16年，RNN架构非常火爆。直到现在，我个人首选的sequence tagging任务model依然是bi-lstm+crf。无他，效果稳定，模型简单。
然而，尽管后续LSTM、GRU、SRU都算作是RNN的衍生物，但统统都不能解决推理时间过长的问题（上线的痛，懂的自然懂！）。因为语言模型处理输入：序列，天然的要求前后依赖。输入就是那么长，每个time step会顺序地做计算，并行化：“不存在的”！

RNN架构先天不足：难以并行化处理序列输入，因为后一个time step总是依赖于前一个time step的输出作为输入

而Transformer，本身在架构设计上就是奔着并行化的目标去的。如果读者了解过CNN中卷积、池化的概念，应该就可以顺畅理解：尽管二维数据比一维序列更加复杂，但在感受野并行处理的情况下，完美利用GPU，速度飞快。

（扯远了，为什么Transformer处理序列数据也够快，会重新开新文章说的～）

“天下苦Transformer久矣”（这是万能必备句式，划重点）!

今天这篇文章，会总结式的记录几个基于Transformer魔改的新架构，全是“当前浪”献上的满满厚爱！

2. 正文`主食`

1. 速览Transformer

what’s Transformer?

一言以蔽之：seq2seq model with self-attention

Transformer的核心在最右侧的两张图中，分别是被框起来的 encoder和decoder部分。

从左向右、从下向上的看：

1. encoder

1.首先实际序列中的每个 $char_i$ ，通过一个固定size的映射矩阵，转换为某个固定维度的embedding向量 $x_i$
2.向量 $x_i$ 经过一个矩阵变化得到 $a_i=Wx_i$ ，而 $a_i$ 再加上每个 $char_i$ 的位置向量 $e_i$ 就可以得到对encoder不断循环部分的输入了
3.红色的self-attention网络：
通过 $q_i k_i v_i]^{-1} = [W_q W_k W_v]^{-1}(a_i + e_i)$ 的运算将输入序列中的每个 $char_i$ ，转换为三种描述，分别是： $query_i,key_i,value_i$ 。
通过每两个位置的char间的query和key两两比较，度量出一个相关程度 $\alpha_{1,j}$ ，然后通过softmax得到 $\hat \alpha_{1,j}$ 。即从全局视野考察，最后确定输出其他位置的输入和1号位的相关程度。
最后以 $\hat \alpha_{1,j}$ 为权重，将对应位置的 $value_i$ 做weighted sum，就可以得到self-attention的输出 $b_i$ ，类似的所有位置都经过上述过程。
4.add: 普通的add; Norm: layer Norm，而不是batch Norm
5.蓝色的前馈神经网络：Fully connected network

2. decoder

而decoder，又多增加了一个交叉注意力机制（右下角masked multi-head self-attention的输出中，最终只有Q接到了上层）

而mask则是在文本向量化过程中,由于文本长度小于Fix_length的Padding部分,在Padding部分对应index的score设为-inf。最后的效果就是使得经过softmax之后,Padding部分给予的attention权重为近似0
这种类似的操作在Decoder部分也使用了，目的是为了Decoder只关注早于当前输出位置的部分。

2. Sandwich Transformers

1. 动机

可能单纯为了想得到一个效果更好的transformer。self-attention特征提取能力比较强，而网络偏底层的部分，恰好是特征较为集中的地方。所以，“不如多叠几层self-attention试试看?”。

2. 做法

“reorder” the sub-layer module，调整self-attention和fully connected层的顺序。
可以看到s层：self-attention层向左靠拢，聚集在一起了；与之对应f层：fully connected layer靠右聚集；中间部分则不变化。

3. 实验

4. 结论

不需要更多参数、内存；简单底层多叠的self-attention，中间正常结构，top多叠fully connected layer，此时表现会比baseline要好。

3. Universal Transformer

1.动机

Transformer在翻译、句法分析上表现很好；而一旦测试序列长于训练数据，因为没见过相对应position embedding 就没有办法了。而且从理论上说transformer不是图灵完备的，不能做重复某些字符串之类的工作（很难理解）。
所以universal transformer想要改进其表现，使用新颖高效的时间并行循环方式将标准 Transformer 扩展为计算通用（图灵完备）模型，从而可在更广泛的任务中产生更强的结果。

2.做法

universal transformer将模型建立在 Transformer 的并行结构上，以保持其快速的训练速度。
使用用单一的时间并行循环的变换函的多次应用代替了 Transformer 中不同变换函数的固定堆叠（即，相同的学习转换函数在多个处理步骤中被并行应用于所有符号，其中每个time step的输出馈入到下一个time step中）。
关键在于，RNN 逐个符号（从左到右）处理序列，而 Universal Transformer 同时处理所有符号（像 Transformer 一样），随后使用self-attention机制在可变数量的情况下并行地对每个符号的解释进行细化。这种时间并行循环机制比 RNN 中使用的顺序循环更快，也使得 Universal Transformer 比标准前馈 Transformer 更强大。

3. 大白话

transformer的self-attention如果叠六层，虽然每一层结构一致，但是其实权重是不一样的。而universal transformer则是借助RNN的时间权重共享思路，让同一个网络重复的在纵向时间轴上计算多次。
Universal Transformer 不像 RNN 那样，每次输入一个字符的embedding来进行时间循环，而是并行地使用多个self-attention 循环重复地修改句子中每一个符号的embedding表示。
而且Universal Transformer使用自适应计算时间机制（adaptive computation time，ACT），使模型动态调整句子中每个位置的embedding表示在时间上迭代的次数。到达迭代次数后，下一轮直接进行复制即可。

4. 用图说话

下图中的postion代表了输入句子中的每个字，而每个字向量都纵向的向上输入到所有的self-attention中，即每个self-attention仍然会获取到全局视野。
而每个self-attention中不同位置会经过多少个time step是由ACT决定的，即多个time-step后有的self-attention网络权重可能就不会再更新了，会保持不变。

4. Residual Shuffle Exchange Network

1. 结论

参数少
速度快
用exchange、shuffle来取代self-attention，获取到远处的信息

2. 做法

如何shuffle?

perfect shuffle：就好像洗牌，每两层switch unit就会把把输入的数据，从中间拆成两份（a1a2a3,b1b2b3），然后像洗牌一样再叠成新的序列（a1b1a2b2a3b3)。

2. detail of Switch Unit

输入的两个元素，如图分别进入上下两条通路：

上面的通路，做的是一些非线性转换

而u则像是一个forget gate，决定：1. 非线性变换信息 2. 交换过的信息有，分别有多少会被传递至下一组unit中

下面的通路，做一个 swapHalf ，看起来就像是“洗牌”

$\left(\left[\begin{array}{l} a \\ b \end{array}\right],\left[\begin{array}{l} c \\ d \end{array}\right]\right)=\left[\left[\begin{array}{l} a \\ d \end{array}\right],\left[\begin{array}{l} c \\ b \end{array}\right]\right]$

butterfly network

实际中使用的是右图，即对称的butterfly network
新文章的改进结构

简化了switch unit的计算。

小的缺点

如果输入8个字，那么只需要 $log_2{8}=3$ 层就可以完成完全的位置交换。那整个结构就只需要 $n l o g n$ 就可以完全模拟self-attention结果了。
然而缺点是序列长度必须要向上对齐到 $2^n$ 。

3. 参数量对比

跟所需要的参数量相比，他的性能已经很好
在同样的GPU Memory下，可以处理更长的序列；相同长度序列下，需要的时间却更短

5. Bert

BERT: bidirectional encoder representations from transformers

从全称中就已经可以明确得到指示：bert 就是把transformer中的decoder部分拿出来，通过预训练得到一组真正有效的embedding表示。

1. masked LM

让bert做完形填空
mask掉一些字符，根据对应位置的字向量输出，后接简单线性多分类器进行预测。
因为分类器能力很弱，所以要分类正确，那么字向量要足够的好

2. NSP：next sentence predication

预测两个句子是否有上下文的关系

nsp训练一个分类器：预测两个句子是否应该接在一起

bert 的内部是transformer——“天涯若比邻”，所以cls安置在句子的开头还是结尾完全是没有差别的

6. ALBERT

1. 动机

降低参数消耗

2. 做法

bert vs albert: “a light bert”
简化版bert: 每一层的weight都是share同一组参数的

reduce embedding矩阵
使用(id, embedding)维度的矩阵，来编码每一个字。实际输入某个字时，网络使用id查询对应的embedding。而这里可以通过矩阵乘法，“时间换空间” 的将embedding的维度降低。
多层self-attention layer共享参数

参考albert的网络结构和参数信息，看到确认到因为albert是多层参数共享的，所以参数量不会随着层数增加而变化，只随着hidden size改变而变化。

3. pretrain

ALBERT：预训练的task在NSP中有所差异

如果AB是合法的句子顺序，那么BA则作为反例输入训练集。
BERT的NSP任务实际上是一个二分类，训练数据的正样本是通过采样同一个文档中的两个连续的句子，而负样本是通过采用两个不同的文档的句子。

NSP（Next Sentence Prediction）：下一句预测，正样本=上下相邻的2个句子，负样本=随机2个句子

在ALBERT中，为了只保留一致性任务去除主题识别的影响，提出了一个新的任务 sentence-order prediction（SOP）。

SOP (Sentence )：句子顺序预测，正样本=正常顺序的2个相邻句子，负样本=调换顺序的2个相邻句子

对于NLI自然语言推理任务。研究发现NSP任务效果并不好，主要原因是因为其任务过于简单。

NSP其实包含了两个子任务，主题预测与关系一致性预测，但是主题预测相比于关系一致性预测简单太多了。

因为只要模型发现两个句子的主题不一样就行了，而SOP预测任务能够让模型学习到更多的信息。SOP因为是在同一个文档中选的，其只关注句子的顺序并没有主题方面的影响。

7. Reformer

1. multi-head

google对attention机制的完善。就是把Q,K,V通过参数矩阵映射一下，然后再做Attention，把这个过程重复做h次，结果拼接起来就行了，可谓“大道至简”。PS：这个应该在transfomer里讲的，忘记了。

2. 改进

可逆神经网络，将只需要存储一层的激活结果即可，N的因素消失了。
分块计算前馈全连接层，节省内存。
采用局部敏感哈希技术，近似计算注意力，将时空开销从O(L2)变为O(L)。

1. Locality Sensitive Hashing Attention

reformer 针对长输入序列做改进：LSH attention

因为self-attention内部QKV运算的空间复杂度是 $n^2$ ，attention score的结果矩阵会迅速增大，但是其实并非所有的score都是重要的。

一个 query 和其他的所有的token的计算 attention score主要是取决于高相似度的几个tokens之间，那么就针对这里做改进。

两个新概念：

Shared-QK Transformer

在标准Transformer中，Q,K,V是由激活结果A分别通过三个线性层映射得到。
　　但是这里引入了LSH attention，我们需要Q和K是相同的(备注：其实这里让Q和K相同并不是LSH必须，LSH只需要让Q、K变成单位向量即可，因为要在单位球面上进行相似查找，本文让Q和K一样只是为了方便批处理，加速计算)，让Q和K通过相同的线性映射即可实现该目的。
　　我们称这样的模型为shared-QK Transformer，实验结果表明共享Q、K并没有影响Transformer的表现效果。

LSH attention

正如上面介绍的，我们每一次只计算一个qi和K的结果，但是我们需要和K中的每一个元素都计算吗？其实不是，我们只需要关心与qi相近的keys即可，K中的每一个元素从宏观上理解就是一个word。假设K的长度为64K，也就是有64K个tokens，我们只需要考虑其中的32或者64个最近的keys，那效率将大大提升。如何得到这最近的keys呢？利用Locality sensitive hashing就可以实现，它的基本思路就是距离相近的向量能够很大概率hash到一个桶内，而相距较远的向量hash到一个桶内的概率极低。

使用hash函数的分桶策略，要求attend之后靠近在一起的几个query-key score分在一个bucket中，然后在bucket内部进行self-attention。

hash function:

$h(x)=\operatorname{argmax}[x R ;-x R]$

其中：x是 $d_k$ 维度的query or key，R是 $\left[d_{k}, \frac{b}{2}\right]$ 大小的变换矩阵，而b是目标bucket的数量。

说明

右边图中，黑点代表在self-attention后softmax中占主导地位的score

a：属于普通encoder的图，因为decoder中 $q_3$ 不能向前attend到 $k_6$ 上去；而且可以明显看到黑点分布很稀疏，集中在几组token之间
b：将key-query hash到相同bucket后，对输入先bucket排序，同个bucket内按照token 的 position排序
c：b中蓝色、绿色区域 key-query的分布不均衡。为了减小bucket中q和k不均衡的问题，文章提出了保证通过令 $k_{j}=\frac{q_{j}}{\left|q_{j}\right|}$ 从而使得 $h\left(k_{j}\right)=h\left(q_{j}\right)$ , 即使用了share-QK attention，得到图c。因为Q=K，此时就能保证对角线都是attend to的，而且q和k在bucket中的个数一样。同时因为同一个bucket中保证相似，所以同一个bucket都用小黑点高亮了。

- 我们注意到对角线的点为空心，这是因为我们虽然在正常实现上，我们的q会attend to本身位置的value.
- 但是在share-QK的实现下，如果attend to本身，会导致其值特别大，其他的值特别小，经过softmax之后，其他都是0，就自己本身是1。
- 所以为了避免这种情况，我们q不会去attend 自身位置的值，除非只有自己本身可以attend to（例如图3/4的 q1 ）

d: 极端情况，不同bucket中数量分布不均衡。此时在操作c的基础上进行chunk操作：对于bucket中的每个query，都可以attend to自己以及前一个bucket 中相同hash 值的key。如左边图的最后一行所表示，但每个输入字不对自己进行attention

多轮LSH attention:

单个hash函数，总不可避免的会出现个别相近的items却被分到不同的桶里，多轮hash并行执行就可以避免。

总结下，过程就是：

首先我们令输入序列的queries = keys
然后我们对其做LSH bucketing，得到每个query和key都在各自的bucket中（不同颜色表示）
我们跟根据bucket对query进行排序，同个bucket中，按照query原本的position进行排序。
在之后我们对于每个排序后的新序列，进行chunk 拆分
最后我们对于每个query只管制自己以及自己之前的chunk，对于这些候选集中相同bucket的key进行attend

假设输入字是1024维度，现在每个bucket size变成32，复杂度由n方变为nlogn

2. Reversible Layer

出发点：做误差反传时，每一层的权重、输出都要在内存中做记录，这其实占据了很大的空间。这里reversible layer要说的是，只要记住最后一层layer的信息，来回推前面层的信息就够了。

“时间换空间”

在RevNet中，首先将输入 $x$ copy为两个部分 $x_1$ 和 $x_2$ 然后通过不同residual functions： $F(\cdot)$ 和 $G(\cdot)$ 得到输出 $y_1$ 和 $y_2$ 。

$\begin{array}{l} y_{1}=x_{1}+F\left(x_{2}\right) \\ y_{2}=x_{2}+G\left(y_{1}\right) \end{array}$

而反向计算时：
$\begin{array}{l} x_{2}=y_{2}-G\left(y_{1}\right) \\ x_{1}=y_{1}-F\left(x_{2}\right) \end{array}$

F是fully connected的输出，而g是Reversible layer的输出。通过如上的操作，并行的存了两份值，然后就可以相互作差、作和计算出前一层的输出。

声明：文章主体框架来自“李宏毅-深度学习”2020网络课程，文字、图片部分包含了个人理解、讲授内容和网络博客。欢迎交流，时间仓促，请联系我！

日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
元宇宙中的视觉技术：虚拟化身与场景生成 xcLeigh 计算机视觉CV 元宇宙虚拟化身场景生成 AIGC 数字孪生
元宇宙中的视觉技术：虚拟化身与场景生成前言一、元宇宙与视觉技术的深度关联1.1元宇宙概念深度剖析1.2视觉技术：元宇宙的“灵魂之窗”二、虚拟化身：数字世界的“第二自我”2.1虚拟化身技术的深度解析2.1.1核心技术构成2.1.2技术实现原理与流程2.2虚拟化身的应用领域及案例展示2.2.1游戏娱乐领域2.2.2教育培训领域三、场景生成：构建元宇宙的虚拟天地3.1场景生成技术全景透视3.1.1关键技
Pktgen-DPDK：开源网络测试工具的深度解析与应用艾古力斯
本文还有配套的精品资源，点击获取简介：Pktgen-DPDK是基于DPDK的高性能流量生成工具，适用于网络性能测试、硬件验证及协议栈开发。它支持多种网络协议，能够模拟高吞吐量的数据包发送。本项目通过利用DPDK的高速数据包处理能力，允许用户自定义数据包内容，并实现高效的数据包管理与传输。文章将指导如何安装DPDK、编译Pktgen、配置工具以及使用方法，最终帮助开发者和网络管理员深入理解并优化网络
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析（8000字图文实战）一、UDP协议核心特性与编程模型1.1UDP协议设计哲学UDP（UserDatagramProtocol）是面向无连接的传输层协议（图1），其核心特征包括：无连接通信：无需三次握手，直接发送数据报尽最大努力交付：不保证可靠性、不维护连接状态报文边界保留：接收方读取的数据与发送方写入完全一致低开销高效
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
HikariCP调试日志深度解析：生产环境故障排查完全指南
HikariCP调试日志深度解析：生产环境故障排查完全指南更新时间：2025年7月4日|作者：资深架构师|适用版本：HikariCP5.x+|难度等级：中高级前言在生产环境中，数据库连接池往往是系统性能的关键瓶颈。HikariCP作为当前最流行的Java连接池，其调试日志包含了丰富的运行时信息，能够帮助我们快速定位和解决各种连接池相关问题。本文将深入解析HikariCP的日志体系，提供一套完整的故
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Redis 分布式锁深度解析：过期时间与自动续期机制爱恨交织围巾分布式事务 redis 分布式数据库微服务学习 go
Redis分布式锁深度解析：过期时间与自动续期机制在分布式系统中，Redis分布式锁的可靠性很大程度上依赖于对锁生命周期的管理。上一篇文章我们探讨了分布式锁的基本原理，今天我们将聚焦于一个关键话题：如何通过合理设置过期时间和实现自动续期机制，来解决分布式锁中的死锁与锁提前释放问题。一、为什么过期时间是分布式锁的生命线？你的笔记中提到"服务挂掉时未删除锁可能导致死锁"，这正是过期时间要解决的核心问题
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
【Java Web实战】从零到一打造企业级网上购书网站系统 | 完整开发实录（三）笙囧同学 java 前端状态模式
核心功能设计用户管理系统用户管理是整个系统的基础，我设计了完整的用户生命周期管理：用户注册流程验证失败验证通过验证失败验证通过用户名已存在用户名可用失败成功用户访问注册页面填写注册信息前端表单验证显示错误提示提交到后端后端数据验证返回错误信息用户名唯一性检查提示用户名重复密码加密处理保存用户信息保存成功?显示系统错误注册成功跳转登录页面登录认证机制深度解析我实现了一套企业级的多层次安全认证机制：认
从零到一：基于差分隐私决策树的客户购买预测系统实战开发笙囧同学决策树算法机器学习
作者简介：笙囧同学，中科院计算机大模型方向硕士，全栈开发爱好者联系方式：[email protected]各大平台账号：笙囧同学座右铭：偷懒是人生进步的阶梯文章导航快速导航前言-项目背景与价值项目概览-系统架构与功能技术深度解析-核心算法原理️系统实现详解-工程实践细节性能评估与分析-实验结果分析Web系统开发-前后端开发部署与运维-DevOps实践完整复现指南-手把手教程️实践案例与故障排除-问
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
2021-11-8饮食搭配寻欢_作乐
今天是什么日子起床：5就寝：10天气：晴朗，但是特别冷心情：郁闷，不想上班。星期一综合症纪念日：任务清单昨日完成的任务，最重要的三件事：外语听力输入无，看的东西太多太散，没有收获。看了很多美食做法，准备好好节食减肥。输出一篇，每周食材清单改进：目标极简，深度。选好不变。习惯养成：早晚学习一个小时。周目标·完成进度60，5学习·信息·阅读无健康·饮食·锻炼早晚护肤完成。人际·家人·朋友无工作·思考暂
分布式全局唯一ID生成：雪花算法 vs Redis Increment，怎么选？
雪花算法vsRedisIncrement：分布式全局唯一ID生成方案深度对比在分布式系统开发中，“全局唯一ID”是绕不开的核心问题。无论是分库分表的数据库设计、订单编号的唯一性保证，还是日志追踪的链路标识，都需要一套可靠的ID生成方案。今天我们就来聊聊两种主流方案——雪花算法（Snowflake）和RedisIncrement，并从原理、特性到适用场景，帮你理清如何选择。同时，我们还将对比其他常见
Spring Boot与云原生：微服务架构的创新实践 tmjpz04412 spring kubernetes 云原生 java graphql
引言：Spring生态的演进与现状Spring框架的发展历程与核心设计理念当前Spring生态的核心组件（SpringBoot、SpringCloud、SpringData等）行业对Spring生态的依赖与创新需求SpringBoot的创新实践1.自动化配置与启动优化条件装配（@Conditional）的深度定制案例启动类加载机制与类路径扫描优化示例：通过自定义Starter实现快速集成第三方服务
在奋斗的年华里，怎么让你的一年顶别人的十年呢丨看看剽悍一只猫十里荷塘秋水长
“剽悍一只猫”在自媒体时代是传奇之一，据说这个人让自己从一无所有的普通人到现在的网络江湖的传奇人物也没有用太长的时间，但是人家现在是樊登读书首席社群顾问、社群商业战略专家、个人成长战略深度研究者&践行者。他自己的微信公众号矩阵有百万读者。早早就借助于互联网的力量实现了财务自由。很多人希望能取经咨询，但是老师的时间极其宝贵高效，一般个人的咨询没有办法安排时间接，再加上收费也不好控制，高了低了对口碑来
神奇的平静漫步的小马驹
我们七组色香味俱全的特色菜百家宴我们七组的仙女们仙女们在舞动上图是今晚上海nlp课堂的晚会照片。熟悉的场地，熟悉的伙伴们。只是，我从画面里，跑到了画面外。决定不去二阶的时候，我以为在这样的时刻，我会有很多情绪：郁闷、遗憾、羡慕、纠结……没想到，这一刻真的来临的时候，我心里是满满的喜悦、平静。其实，在读到惠安的时，我内心有些小波动：惠安和我工作类似，她也面临突击检查，她因为领导的理解、同事的护援而得
那些你不知道的医疗保障缺口罗茜月
长期以来，市场对中国医保体系的概括一直是六个字：广覆盖、低水平。这六个字背后意味着现在的医保有哪些特点？个人医疗保障在一个什么样的水平？医疗保障缺口有哪些？第一，医保设计的核心目标是覆盖大部分人，也就是广度，而不是深度，或者说是保障的程度。因此，医保发展的首要目的是先将大部分人纳入保障范围，尤其是新农合，从2005年的参保率仅为75.66%上升到2016年的98.8%，人群覆盖率是发展的核心。在这
FloEFD 工程师使用灵活，企业如何科学管控许可证资源？
随着制造企业对设计仿真一体化需求的增长，FloEFD作为SiemensDigitalIndustriesSoftware提供的CAD嵌入式计算流体动力学（CFD）工具，凭借与SolidWorks、Creo、NX、CATIA等主流CAD平台深度集成，广泛应用于电子散热、汽车、能源装备、流体机械等行业。FloEFD的优势在于其“工程师友好型”理念，使设计工程师可以直接在CAD环境中完成几何建模、网格生
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

深度学习 NLP-Transformer and variant (TF and 魔改s）

1. 写在前面开胃菜

1. 所谓“魔改”

2. why and how

3. 正文预告

2. 正文主食

1. 速览Transformer

1. encoder

2. decoder

2. Sandwich Transformers

1. 动机

2. 做法

3. 实验

4. 结论

3. Universal Transformer

1.动机

2.做法

3. 大白话

4. 用图说话

4. Residual Shuffle Exchange Network

1. 结论

2. 做法

3. 参数量对比

5. Bert

1. masked LM

2. NSP：next sentence predication

6. ALBERT

1. 动机

2. 做法

3. pretrain

7. Reformer

1. multi-head

2. 改进

1. Locality Sensitive Hashing Attention

2. Reversible Layer

你可能感兴趣的:(深度炼丹十八式-NLP,Transformer,self-attention,bert,自然语言处理,深度学习)

1. 写在前面`开胃菜`

2. 正文`主食`