Layer Normalization(LN) 层标准化 (为什么Transformer用LN)(手写手动实现LN)
CNN用BN,RNN用LNBN又叫纵向规范化,LN又叫横向规范化LN也是因为Transformer才为人们所熟知的BN并不适用于RNN等动态网络和batchsize较小的时候效果不好。LayerNormalization(LN)的提出有效的解决BN的这两个问题。LN和BN不同点是归一化的维度是互相垂直的下图的N是bs,F是H和W拍平后的维,也叫L叫Layernorm,其实是对单个样本做的,对bat